AI三大发展阶段：权重、提示词和harness底层逻辑

#大语言模型LLM #语言文字游戏 #AI提示上下文工程 #AI智能体Agent

2026-04-13 2 26K banq

别跟模型死磕了！AI真正的战场已从权重搬到harness！AI能力正从模型内部外移到系统结构。社区热词从权重变上下文再变harness，不是换说法，而是工程重心转移：我们不再只问模型多聪明，更问系统多会组织。

AI发展三个阶段：

- 权重将知识编码在参数中（快速但僵硬）
- 上下文在提示中暂存知识（灵活但短暂）
- harness将知识外部化到持久基础设施中（可靠且可治理）

每个阶段都没有取代前一个阶段。它是层层叠加的。权重仍然重要。上下文工程仍然重要。但重心已经向外移动。

换句话说，从“contextual prompting”到“harness”，不是换了个说法，而是整个工程重心发生了位移。关注点从“模型知道什么”，转向“模型看到什么”，再转向“模型如何被组织起来行动”。这是一种认知负担的逐层外包过程，而不是简单的技术演进。

核心观点：社区语言在搬家，其实是在说我们把越来越重的活儿甩给外部系统

这段话根本不是在聊“harness”这个词怎么火的。这背后藏着一个更硬核的事实：AI的本事正在从模型里面一点一点搬到模型外面去。社区里大家嘴里冒出来的词变了，那只是水面上的气泡。真正的变化在水底下——我们整个工程的发力点挪了窝。

从“上下文提示”到“harness”，这可不是换个时髦说法。这代表我们关注的东西完成了三级跳：一开始盯着模型脑子里存了什么知识，后来盯着模型眼睛看到了什么信息，现在盯着怎么把模型组织起来干正经活。每一步都是在把认知负担往外扔，这不是普通的技术升级，这是一场甩锅大赛。

权重阶段：大家曾经相信把一切本事都塞进模型的大脑里就行

在最开始那阵子，整个圈子都有一个特别朴素的信仰：只要模型体积够大、喂的数据够多、训练得够狠，啥能力都能自己长出来。所以我们天天聊预训练、微调、RLHF、规模法则，所有问题最后都能归结为一句话——模型还不够强。这种思路特别像把一个中学生关进图书馆三年，然后指望他出来就直接能当院士。这招确实有点用，但代价高得吓人，而且想更新点新东西难如登天。

你想让模型知道昨天刚发生的新鲜事，那基本等于让它重新上一遍学。这显然不现实，谁受得了啊。更要命的是，所有能力都死死压死在模型的权重文件里之后，整个系统变得没法拆开看、没法控制、也没法解释。模型确实懂很多，但你根本不知道它是怎么懂的，更不知道它啥时候会犯傻。这就造成了一个很搞笑的局面：模型能写诗、能写代码、能写论文，但你让它老老实实执行一个多步骤任务，它立刻表现得像个第一天来实习的大学生，干着干着就忘东忘西。这不是因为它笨，而是因为它的结构天生不适合干这种活。

上下文阶段：大家开始用提示词魔法给模型喂正确信息

后来社区慢慢反应过来一个关键问题：模型其实已经够聪明了，问题出在我们没把正确的信息喂给它。于是上下文变成了主战场，提示词工程、RAG、思维链、记忆技术这些东西全面爆发。这一阶段所有人的精力都花在一句话上：怎么把对的料，在对的时间，塞进模型的上下文中。这一步看起来只是优化输入，本质上却是第一次真正意义上的“能力外移”。

原本需要模型自己使劲回忆的知识，现在通过RAG直接塞给它。原本需要模型自己偷偷推理的步骤，现在通过思维链明明白白地展开。这就像考试从闭卷变成了开卷，你不需要把所有内容背得滚瓜烂熟，只需要知道上哪儿去翻答案就行。但这个法子很快就露馅了。上下文窗口是有限的、用起来贼贵、还特别容易被污染。你塞进去的东西越多，模型反而越糊涂。

“迷失在中间”这个现象说白了就是信息太多把模型的大脑挤爆了，注意力直接崩溃。多言数穷，不如守中！

更要命的是，上下文是一次性的。每次对话都像电脑重启，模型没有任何真正的长期记忆。你昨天跟它聊得再热乎，今天它翻脸不认人，一个字都不记得。这就像你每次见同一个朋友，他都失忆，你得从头自我介绍一遍，累不累啊。

Harness阶段：把模型当成CPU，系统本身才是真正的大脑

现在你看到“harness”这个词突然火了，本质上是第三次能力外移。这次我们不只外包知识，我们直接外包整个思考过程本身。有篇论文说得特别直白：现代LLM智能体的能力越来越不来自修改模型权重，而是来自重组模型周围的运行时系统。这一步的变化太关键了，模型开始被降级成一个纯粹的“推理引擎”，而不是一个完整的智能体。

真正的智能分布在三个外部结构里。Memory负责跨时间记住状态，就像公司的人事档案。Skills负责可以重复使用的流程，就像员工的操作手册。Protocols负责交互规则，就像公司内部的沟通规范。而Harness这个角色，就是把这三样东西组织起来一起干活的那个执行环境。换个更接地气的说法：以前你在辛辛苦苦训练一个天才少年，现在你在正儿八经搭一个公司。

模型就是那个干活儿的员工，memory是公司的数据库，skills是标准作业程序，protocol是内部沟通规矩，harness是那套管理系统。员工再聪明，要是没有公司这个结构撑着，他也干不成什么复杂的大事。你再厉害的程序员，让他一个人从头到尾搞定一家电商平台的所有代码，不给他设计文档、不给他代码库、不给他测试环境、不给他队友，他也得疯。

社区语言为啥会变：大家的注意力永远追着最卡脖子的那个坑跑

你观察到社区语言在变，这其实是一个非常准的洞察。社区这帮人从来就不是追潮流，他们只是死死盯着当前最难搞的那个瓶颈。当模型不够强的时候，所有人都在聊权重。当模型够强但用不好的时候，所有人都在聊上下文。当上下文也开始掉链子的时候，所有人开始聊harness。这不是赶时髦，这是工程压力在集体搬家。

“上下文提示”火的那阵子，是因为大家还相信靠更聪明的提示词就能解决问题。而现在“harness”火了，是因为现实狠狠教育过我们：提示词解决不了系统性的毛病。你可以把这个进化过程理解得特别简单粗暴。第一阶段靠天赋，一个人天生聪明就完事了。第二阶段靠技巧，聪明人还得会考试。第三阶段靠体系，光会考试没用，你得在一个靠谱的组织里干活。就是这么个理儿。

为啥模型正在变成大路货：不是它不行了，是它不再是最特别的那个

你说“模型正在变成commodity”，这句话对，但得补一刀。不是模型变弱了，而是它不再是大家拼差异化的主要武器。当所有公司都能用上同样强的模型时，竞争的核心就不在于“你有多牛的模型”，而在于你有没有更好的memory设计、有没有更稳定的skill体系、有没有更可靠的protocol、有没有更聪明的harness调度策略。

这就像云计算时代来了之后，没有哪家公司会因为“我有服务器”而领先。领先的是那些能把服务器组织得更好、用得性价比更高的人。你有十台服务器，我也能租到十台，谁怕谁啊。最后拼的是谁能把这十台服务器编排得像一台超级计算机，而不是谁买的服务器牌子更响。

真正的转折点：从研究智能本身，转向研究智能的组织方式

最关键的变化其实就藏在那最后一句话里。从“怎么让模型更聪明”变成“怎么让系统更聪明”。这句话听起来平平无奇，但它等价于从研究“一个人有多聪明”变成研究“一个公司怎么高效运作”。一旦进入这个阶段，问题的性质就彻底变了。

不再是推理能力够不够的问题，而是调度够不够聪明的问题。不再是知识够不够多的问题，而是状态管理够不够稳的问题。不再是生成内容好不好看的问题，而是整个执行系统能不能跑通的问题。这就像你不再问一个员工打字快不快，而是问整个公司的流程有没有让员工卡在半路上。

一个更冷静的判断：Harness不是终点，它只是一个中间站

我得给你泼一盆小小的冷水。现在大家狂热讨论harness，这个场景特别像当年狂热讨论提示词工程。Harness确实是当前的主战场，但它绝对不是终点站。因为它本质上还是“人为设计的外部结构”，而且复杂度正在像野草一样疯长。你已经能看得见问题了。memory越来越复杂，像个没人整理的杂物间。

skill库越来越膨胀，像个塞满过时文件的档案室。protocol越来越碎片化，不同系统之间的对话像鸡同鸭讲。

harness本身越来越像一套完整的操作系统，复杂到快没人能完全搞懂了。

那么下一步会发生什么？很可能是harness自己开始自动化和自我进化。已经有论文在提“自进化harness”这个方向了。

也就是说，下一波社区热词，很可能不再是harness，而是“自组织系统”或者类似的东西。到时候大家又会说，你看，词又变了，其实还是那个老故事。

总结：你看到的只是词在变，其实是智能的边界在往外推

你看到的只是热词在换，但本质上是“智能的边界”在不断移动。以前智能乖乖待在模型权重里。后来智能跑到上下文窗口里。现在智能住在整个系统结构里。下一步呢？智能会在“系统怎么自己演化自己”这件事里。每一次搬家，都是因为我们发现：光靠原来的那个壳，已经装不下我们想要的本事了。

这不是语言游戏，这是一场持续的外包革命。谁先把这套逻辑玩明白，谁就能在下一波浪潮里站住脚。