过去几年,大家都在猜人工智能下一步会怎么发展。是搞代理智能体?推理机?还是真正的多模态?
我觉得现在可以这么说:模型本身就是产品。
现在的研究和市场发展都在往这个方向走:
- 大公司(如OpenAI、Anthropic)的模型越来越强,直接做成产品(如DeepSearch、Claude Code),不再只提供API。
- 小公司面临选择:自己训练模型或被取代。
- 投资人更关注应用层,但模型训练潜力巨大,尤其在经济下行时。能做训练的公司很少,融资困难。
- DeepSeek和中国实验室已把模型当基础设施,认为现在是技术创新爆发期,应用层未来可能由产业链完成。
通用的扩展已经慢下来了。GPT-4.5 的发布就说明了这一点:模型的容量增长是线性的,但计算成本却是指数级增长。就算过去两年在训练和基础设施上效率提高了不少,OpenAI 也没法以大家能接受的价格部署这个超级大模型。
有主见的训练效果比想象中好得多。强化学习和推理的结合让模型突然学会了完成任务。这已经不是传统的机器学习或者基础模型了,而是另一种新的东西。就连很小的模型也突然变得数学能力超强。编码模型不再只是生成代码,而是能自己管理整个代码库。比如克劳德在玩口袋妖怪时,几乎没什么背景信息,也没有专门的训练。
推理成本直线下降。DeepSeek 最近的优化意味着所有可用的 GPU 都能满足前沿模型每天 10k 个代币的需求……甚至能满足全球人口的需求。这种需求到处都是。靠卖代币赚钱的模式对模型提供商来说已经不行了:他们必须往价值链的上游走。
这也是个让人不太舒服的方向,因为所有投资者都把宝押在了应用层,而在 AI 进化的下一个阶段,应用层很可能是最先被自动化和颠覆的。
新一代模型:
在过去的几周里,我们看到了两个新一代模型的典型例子:OpenAI的DeepResearch和Claude Sonnet 3.7。
我读到过很多关于DeepResearch的误解,开放和封闭克隆的增加并没有起到什么帮助作用。OpenAI并没有在O3之上构建包装器。他们训练了一个全新的模型,能够在内部执行搜索,不需要任何外部调用、提示或编排。
模型通过对这些浏览任务的强化学习训练,学会了核心的浏览功能(搜索、点击、滚动、解释文件)(……)以及如何推理合成大量网站以查找特定的信息或撰写综合报告。
DeepResearch不是标准的LLM,也不是标准的聊天机器人。它是一种新型的研究语言模型,专门设计用于端到端执行搜索任务。
对于认真使用它的每个人来说,其差异是显而易见的:DeepResearch这种模型生成具有一致结构和底层源分析过程的长篇报告。
Google的Gemini和Perplexity的聊天助手也提供“深度研究”功能,但都没有发布任何关于如何优化其模型或系统以完成任务的文献,也没有进行任何实质性的定量评估(...)我们将假设所做的微调工作并不实质性。
Anthropic一直在更清晰地阐述他们当前的愿景。去年12月,他们引入了一个有争议但在我看来是正确的代理模型定义。与DeepSearch类似,代理必须在内部执行目标任务:它们“动态地指导自己的流程和工具使用,保持对如何完成任务的控制”。
目前,大多数代理智能体初创公司正在构建的不是代理,而是工作流,即“通过预定义代码路径编排LLM和工具的系统”。
工作流可能仍然会带来一些价值,尤其是对于垂直适应而言。
然而,对于目前在大型实验室工作的任何人来说,显而易见的是,自主系统的所有重大进展都将首先通过重新设计模型来实现。
我们在Claude 3.7的发布中对此进行了非常具体的展示,该模型主要针对复杂的代码用例进行训练。所有工作流程的调整(如Devin)都对SWE基准测试产生了重大提升。
再举一个规模小得多的例子:在Pleias,我们目前正在致力于实现RAG自动化。当前的RAG系统包含许多相互关联但又脆弱的工作流程:路由、分块重新排序、查询解释、查询扩展、源语境化、搜索工程。
随着训练技术堆栈的不断发展,将所有这些流程捆绑在两个独立但相互关联的模型中是完全有可能的,一个用于数据准备,另一个用于搜索/检索/报告生成。这需要精心设计的合成管道和全新的强化学习奖励函数。
所有这些在实践中意味着:取代复杂性。训练可以预测各种动作和边缘情况,因此部署变得更加简单。但在这个过程中,大部分价值现在被创建,并且很可能最终被模型训练师捕获。