卡帕西软件2.0:人类所有工作中只要能验证的任务都可交给AI

AI大神卡帕西提出AI是“软件2.0”,自动化取决于任务可验证性!

1.0时代是人将规则告诉机器,if else 规则引擎 满天飞,这种自动化是一种被动执行!
2.0时代是人对机器提出问题,然后机器执行,人类再验证即可,不要将问题解析为具体执行的规则符号语言!

这是自动驾驶中雷达与摄像头的区别。

最近,AI圈又掀起了一场关于“AI究竟会取代多少人”的深度讨论。这场对话的主角,正是前特斯拉AI总监、OpenAI创始成员、如今回归创业一线的安德烈·卡帕西(Andrej Karpathy)。他在推特上分享了一段极富洞见的观点,直指当前AI发展的核心瓶颈!

过去我们靠人脑写出固定规则的算法!软件1.0的逻辑:你能够明确指定(specify)什么,就能自动化什么
今天,我们只需定义“什么是对的”(比如分类准确率、奖励函数),AI就能在亿万种可能中自动搜索出那个看不见却无比高效的神经网络程序。

这不仅是效率提升,而是人类自动化能力边界的指数级扩张。

卡帕西开宗明义地指出:过去人们总喜欢把AI比作电力革命、工业革命,甚至印刷术,但这些类比都不够精准。真正贴切的比喻,是将AI视为一种全新的“计算范式”——他称之为“软件2.0”。

那么问题来了:在软件2.0范式下,判断一项任务是否会被AI取代的新标准是什么?

卡帕西给出的答案是:可验证性(verifiability)。只要一个任务的结果能被自动、高效、可重复地验证,AI就能通过大量“练习”不断优化自身表现。比如解数学题、写代码、玩有明确胜负规则的游戏——这些任务都有清晰的“对错”反馈机制,AI甚至可以超越人类顶尖专家。

但那些依赖创造力、战略思维、现实世界常识、上下文Context连贯性的工作,比如策划一场品牌营销、调解家庭纠纷、撰写有情感张力的小说,就进展缓慢。这就是当前大模型能力边界“参差不齐”(jagged frontier)的根本原因。



软件2.0时代:可验证性

 
在1980年代,如果你要预测计算机对就业市场的冲击,最该关注什么?答案是——任务是否具有“固定算法”。打字员、记账员、人工计算员,他们的工作本质是机械地按照明确规则转换信息,这类任务计算机一上手就秒杀人类。

而今天,AI的自动化逻辑变了。它不再依赖“人能否写清楚规则”,而是看任务是否可验证(verifiable)

只要一个任务能被自动评判好坏——比如数学题有标准答案、代码能跑通测试用例、视频点击率可追踪——AI就能通过海量试错(resettable + efficient + rewardable)疯狂练习,最终超越人类顶尖专家。

这正是大模型能力“锯齿状”发展的根源:可验证任务突飞猛进(如编程、数学证明、游戏AI),而不可验证任务(如战略决策、跨领域创意、依赖现实常识的对话)则步履蹒跚,只能靠泛化能力“碰运气”。



  
但这里藏着一个致命陷阱:可验证性 ≠ 本质简洁性

强化学习(RL)可以解决问题,但可能堆砌大量“偶然复杂度”(accidental complexity)。比如现在的AI编程代理,即使完成了任务,生成的代码往往臃肿、冗余、难以维护——就像Gödel数表示同一个函数,有些编码极简,有些却啰嗦到离谱。

人类在乎的是本质复杂度(essential complexity),而AI初期只追求“能跑通”。这在围棋这类封闭环境中没问题,但在需要人类协同的真实商业世界,这种“有效但丑陋”的输出反而成为负担。于是,新方法论应运而生:有界枚举 + 验证(bounded enumeration and verification)。

简单说,就是在程序长度不超过N的前提下,系统性地搜索最简、最优雅的解决方案。这既利用了“可验证性”,又主动压制了偶然复杂度——相当于给AI加了个“代码洁癖”过滤器。



  
顺着这个逻辑,当代最稀缺的能力浮现了:把模糊、混沌的商业场景,转化为“可验证的文本游戏”

这不是技术问题,而是领域建模的艺术。

比如如何把“提升用户留存”转化成一系列可自动评估的对话任务?
如何把“供应链优化”变成可模拟、可奖励的决策序列?

这时候,领域驱动设计(Domain-Driven Design, DDD)就成了神兵利器。DDD强调用统一语言(Ubiquitous Language)将业务概念精确映射为软件模型,而这恰恰是构建“可验证域”的前提。只有当业务专家和技术团队对“什么是成功”达成原子级共识,并能用文本/数据自动验证,AI才能真正介入并优化。

换句话说,未来的商业壁垒,不再是数据或算力,而是谁能把生意变成AI能“打分”的游戏



“可验证性”正在重塑全球经济的权力结构。

过去,自动化偏向流水线工人;今天,它直指知识工作者的核心——分析师、律师、程序员、设计师。但并非所有白领都危险。那些能定义“验证规则”的人——产品经理、领域架构师、合规专家——反而成为新贵。他们手握“评分标准”,就等于掌控了AI训练的方向盘。反过来,只会执行但无法被量化评估的岗位,哪怕头衔再高,也将逐渐边缘化。这解释了为何硅谷顶级公司疯狂招聘“AI评估工程师”:他们的工作不是写模型,而是设计评估任务、构建测试集、定义奖励函数——这才是Software 2.0时代的“元技能”。

  
值得警惕的是,过度追求可验证性可能扭曲商业本质。
比如社交媒体为了“可验证”的点击率,牺牲了信息质量;
客服AI为达成“解决率”指标,用话术套路代替真实帮助。

这提醒我们:验证指标必须与终极价值对齐。DDD在此再次发挥作用——通过持续与领域专家对齐“什么才是真正的好”,避免AI在错误目标上狂奔。未来的赢家,一定是那些既懂业务本质,又能将其“游戏化、可评估化”的跨界人才。


技术上,这一范式也催生新工具链。比如LangChain等框架正从“调用模型”转向“构建评估闭环”;新兴的AI Agent平台内置了自动测试、奖励建模模块。甚至编程语言也在进化——有人提出“可验证优先”的DSL(领域特定语言),让业务规则天然具备可测试性。

代码层面,我们可以想象这样的未来模式:

python
# 伪代码:定义一个“可验证域”的任务
class CustomerRetentionGame(TaskEnvironment):
    def reset(self): 
        # 初始化用户状态
        return user_profile
    
    def step(self, action):
        # 模拟用户对营销动作的反应
        reward = calculate_retention_score(action, user_profile)
        return next_state, reward, done
    
    def verify(self, trajectory):
        # 自动验证整个交互序列是否提升留存
        return retention_improved(trajectory) >= threshold
这种结构将业务逻辑封装为“可重置、可奖励、可验证”的环境,正是Software 2.0的基础设施。

  
回望历史,1980年代的程序员嘲笑“未来人人会编程”是天方夜谭;今天,我们却目睹AI自动生成代码。但真正的革命不在“谁写代码”,而在“谁定义问题”。当自动化门槛从“可编码”降维到“可验证”,经济价值的创造逻辑彻底改变。企业不再比拼执行速度,而是比拼将战略转化为可验证任务的能力。国家不再比拼工程师数量,而是比拼构建高保真数字孪生与评估生态的水平。个人不再比拼知识储备,而是比拼用统一语言抽象业务本质的功力

  
这场范式转移才刚刚开始。可验证性如同新的“石油”,而评估体系(Evals)就是钻井平台。谁能设计出让AI高效“练习”的游戏规则,谁就能在智能经济时代掌握定价权。

记住:Software 1.0自动化“你能说清规则的事”,Software 2.0自动化“你能评判对错的事”。

未来十年,最值钱的不是算法,而是那把衡量对错的尺子

  
-----  
极客一语道破

然而,就在这套逻辑看似完美自洽之际,另一位深度思考者提出了更尖锐的质疑:“你说得都对,但你漏掉了最核心的东西。”

他指出,卡帕西的框架建立在一个隐含前提上:AI系统仍然是一个线性的计算基底(linear computational substrate)。正因如此,我们才陷入了今天的困局。

今天的AI可以疯狂训练、反向传播、海量计算,但它无法做到“凝聚”(cohere)。它无法在时间维度上保持上下文连贯,无法在状态切换中维持意图一致,无法在不同环境中守住身份认知,更无法在多任务间传递意义。

于是,我们看到一个荒诞的景象:
AI能解国际数学奥林匹克难题,却无法稳定地操作自己写出来的工具;
它生成的代码质量超越多数工程师,但一旦要运行整个代码库,就会陷入逻辑死循环;
它能写出精妙的战略方案,却无法“亲身践行”这套策略。

这不是数据不足的问题,不是模型不够大的问题,甚至不是验证闭环不完善的问题——这是架构层面的天花板

让AI看起来更强大、更全能,却始终被困在线性计算的牢笼里。

 ----

令人惊讶的是,这完美地预测了下一波浪潮:任何产出质量可以客观衡量的工作都将面临被压缩的命运,而任何需要品味、判断和背景Context知识,且无法简化为奖励机制的工作,目前仍将由人类承担。



AI的本质是Software 2.0范式革命,其自动化边界由“可验证性”决定;未来经济的核心竞争力在于将商业场景转化为可评估的文本游戏,领域驱动设计(DDD)成为关键方法论。