在这些模型中......
- Gpt 4.5在情商和创意写作基准测试中总体评分最高
- Claude 3.7Sonnet 在现实世界的 SWE 基准测试中获得了最高评分,但现在与 Gemini 2.0 pro 实验版 03-25 展开激烈竞争
- Grok 3 思维 在发布时的一些基准测试中一度达到 SOTA 水平,但目前已被最新的 OpenAI、Deepseek、Anthropic 和 Gemini 模型所超越
- 除此之外,许多 7B、24B、27B、32B、9B 和 4B 模型的表现都优于去年 B 参数高达 100 的模型
一系列人工智能模型及其发布日期。以下是具体内容:
- DeepSeek R1 (DeepSeek) - 2025年1月24日发布。
- Qwen2.5-Max (阿里巴巴) - 在2025年1月末发布。
- Mistral 3.1 (Mistral AI) - 在2025年1月末发布。
- Gemini 2.0 Flash (Google DeepMind) - 在2025年初发布。
- Gemma 2 (Google) - 在2025年初发布,具体日期未定(可能在1月或2月)。
- Wan 2.1 T2V-1.3B (阿里巴巴) - 2025年2月25日发布。
- Wan 2.1 T2V-14B (阿里巴巴) - 2025年2月25日发布。
- Wan 2.1 I2V-14B-480P (阿里巴巴) - 2025年2月25日发布。
- Wan 2.1 I2V-14B-720P (阿里巴巴) - 2025年2月25日发布。
- Hunyuan Turbo S (腾讯) - 2025年2月27日发布。
- Grok 3 (xAI) - 预计在2025年2月发布。
- Claude 3.7 Sonnet (Anthropic) - 预计在2025年2月发布。
- QwQ-32B (阿里巴巴) - 2025年3月5日发布。
- Exaone Deep AI Models (LG AI Research) - 2025年3月18日发布。
- Hunyuan-T1 (腾讯) - 2025年3月19日发布
我们每天都会收到新的 SOTA(顶级模型),但是昨天太疯狂了,我们一下子收到了 3 个 SOTA:
- 基础 LLM SOTA(DeepSeek V3-0324)、
- 整体 LLM SOTA(Gemini 2.5 Pro)、
- 图像生成 SOTA(GPT-4o 原生图像输出)