DeepSeek大模型

阿里Qwen 3 0.6B在简单的数学中击败了GPT-5

我看到有人在X上发了个挺逗的对比：用Grok和GPT-5解方程 5.9 = x + 5.11，结果Grok解出来了，GPT-5却没动脑子就答错了。

AI中文翻译对决：GPT5 vs 阿里千问，Gemini裁决

将山姆奥特曼一段话分别交给阿里千问最新模型和ChatGPT5翻译，然后请谷歌Gemini对它们的翻译结果评价，目的是评估ChatGPT5的能力到底有无进步？ --- 阿里千问

OpenAI发布可本地部署的开放权重模型GPT-oss

OpenAI 发布了 GPT-oss，这是 GPT-2 以来的首个开放权重语言模型，测试地址：https://gpt-oss.com/ OpenAI 发布了两个具有开放权重的大型语言模型 gpt-oss-120

DeepSeek或匹配华为昇腾AI芯片，寒武纪大涨

DeepSeek正在主动尝试使用华为自主研发的Ascend（昇腾）AI芯片进行新一代R2模型的训练工作。本来 R2 模型应该在五月就荣耀登场，能够再次遥遥领先于全球开源大模型，但是现在遭遇成长中的阵痛：或因与华为 Ascend 芯片匹配优化等问题

DeepSeek推DeepSeek V3.1基础型号性能提升13%

DeepSeek在huggingface.co上开启了新的DeepSeek-V3.1-Base页面，尽管正在上传，页面是空白的，但是可以看出模型大小是685B参数极客们沸腾了： 1、我敢肯定，他们就是在

中国开源Qwen3 Coder与Kimi K2哪个最适合编程？

《码界双雄争霸赛》：阿里Qwen3 vs 月之暗面Kimi K2，谁才是你电脑里的“最强打工人”？最近科技圈炸锅了！阿里巴巴放出一个叫 Qwen3 Coder 的新AI程序员，号称“代码界的苏炳添”—

Qwen 3-235B-A22B发布！告别混合精分思维

Qwen团队刚刚发布了一个新模型，对于那些关注他们工作的人来说，这是一个重大的更新。告别混合思维模式，向专用的Instruct和Thinking模型问好。再见 Qwen3-235B-A22B，你好 Qwen3-235B-A22B-2507！

阿里发布Qwen3-235B-A22B-Thinking-2507思考模型

过去三个月，咱们的“智商担当”——通义千问3号（Qwen3）可不是偷偷摸摸长个子，而是直接进了“超级增肌训练营”！现在它已经从一个聪明的学生，进化成了戴着厚厚眼镜、走路都带风的学霸教授！现在它牛到什么程度呢？

10万元内本地无损运行Kimi-K2！可行方案公开

兄弟们！只要钱包里还有 1 万美刀，就能在家开跑 1 万亿参数的 Kimi-K2？别急着掏压岁钱，先听我吹一波脑洞！ 1. 体重惊人 Kimi-K2 的“脑容量”1.03 TB，比 200 部 4K 电影还

DeepSeek首款混合模型V3.1超越自家R1推理模型

DeepSeek推出首款混合模型V3.1，在基准测试中超越自家R1推理模型近日，DeepSeek公司正式发布了其首款混合人工智能模型DeepSeek-V3.1，该模型创新性地采用双模式运行机制，被官方称为"迈向智能体时代的第一步"。这一突破意味着Deep

美国最强开源AI不敌中国DeepSeek R1与Qwen3

OpenAI的gpt-oss模型独立基准测试：gpt-oss-120b是美国最智能的开源权重模型，在智能方面落后于Qwen3 235B，但效率却更胜一筹，速度更快。

书生Intern-S1：中国先进的开源多模态科学推理模型

来自中国的新开源 Sota 模型 @ 235B MoE 语言模型和 6B Vision 编码器 - 在 5T 标记（50% 以上的科学数据）上进行预训练：我们推出了 Intern-S1，这是我们推出的最先进的开源多模态推理模型。Intern-S1

从DeepSeek-到Kimi K2：大模型架构设计吐槽大会

聊聊从DeepSeek-V3到Kimi K2，这些酷炫的现代大语言模型（LLM）的“身体构造”到底有啥不一样，为啥它们能变得越来越聪明、越来越能打！一、DeepSeek-V3：藏着“深海巨兽”和“专家团”的秘密

中国Z.ai发布排名第三的混合全能大模型GLM-4.5

z.ai 是一个多模态人工智能平台，由国内团队开发，主打文本、图像、音频等多模态内容的生成与理解能力。其定位类似于 OpenAI 的 ChatGPT 或 Anthropic 的 Claude，但更强调中文场景优化和多模态融合。将GLM-4.5与O

AMD Ryzen AI MAX+ 96GB显存实现128B大模型本地运行

AMD 的 Ryzen AI MAX+ 处理器现为消费级显卡提供高达 96 GB 的内存，允许 128B 参数的大型 LLM 在 PC 上本地运行重磅八卦：AMD的CPU现在能扛起一座“AI大山”！你

英伟达新模型：用Qwen+DeepSeek炒冷饭

听好了！英伟达搞出了一堆叫"OpenReasoning-Nemotron"的模型（1.5B/7B/14B/32B四个版本），吹得天花乱坠说在同类开源模型里"史上最强"。其实不就是把Qwen2.5架构拿来修修补补，用那个什么DeepSeek-R1-0528生成的数据训练了一下嘛！

Claude Sonnet 4 vs Kimi K2 vs Gemini 2.5 Pro编程比拼

AI模型大比拼：谁能搞定Next.js代码库，少惹麻烦？欢迎来到这场AI模型的编程擂台赛！今天我们要把三个AI选手——Claude Sonnet 4、Kimi K2和Gemini 2.5 Pro——扔进一个Next.js代码库，看看谁能写出生产级代码，还

在家用两块游戏卡就能部署700亿参数AI大模型

震惊！两个游戏显卡，竟能训练全球顶级AI大模型？！你没看错！就在今天，一家叫 Answer.AI 的“神秘组织”（其实是正经公司，但他们说自己更像19世纪的电学实验室，听着就很酷）宣布：他们搞出了一套“神级外挂”