Andrej Karpathy总结2025年LLM六大范式变革:RLVR让AI学会自主推理,幽灵智能颠覆认知,Cursor定义垂直AI应用,Claude Code推动本地代理,氛围编程解放全民开发,Nano Banana开启LLM图形界面时代。
2025:大模型“开窍”元年,AI已不是我们熟悉的那个AI了
如果你觉得过去一年AI只是“又变强了一点”,那你真的错过了历史性的一年。2025年,大语言模型(LLM)领域发生了至少六大范式级变革,它们不是渐进优化,而是彻底重构了我们对智能、工具和人机协作的理解。
这一年,AI不再是“模仿人类说话的鹦鹉”,它开始拥有自己的“思考路径”、自己的“性格棱角”,甚至有了自己“生活”的方式——不再是网页上的聊天框,而是你本地电脑里那个随时待命的“数字幽灵”。
更炸裂的是,编程这件事,终于从“专业技能”变成了“全民氛围”,你只需要说出“氛围感觉vibe”,AI就能给你造出一整套软件。这不是未来,这是2025年正在发生的现实。
强化学习从可验证奖励(RLVR):AI终于学会“自己想事儿”了
2025年之前,所有头部大模型的训练流水线基本是三大步骤:预训练(比如2020年的GPT-3),监督微调(2022年的InstructGPT),再加上基于人类反馈的强化学习(RLHF)。这一套流程稳定有效,但有个致命缺陷:人类很难教AI“怎么思考”,只能告诉它“答案对不对”。你让AI解一道奥数题,它要么蒙对,要么蒙错,但你没法清晰描述“中间该拆几步、每步该用什么技巧”。
直到2025年初,RLVR(Reinforcement Learning from Verifiable Rewards,强化学习从可验证奖励)横空出世,彻底改变了游戏规则。所谓“可验证奖励”,就是给AI布置一堆能自动打分的任务,比如数学证明、代码题、逻辑谜题——只要AI提交一个解,系统立刻就能判断正误,无需人类介入。这听起来简单,但实际威力爆炸:AI在不断试错+自动打分的闭环里,居然自发演化出了“类人推理”行为!它会主动把大问题拆成小步骤,会尝试不同策略,还会在卡壳时“回头检查”、修正路径。DeepSeek R1的论文里就展示了AI如何像人类一样在草稿纸上边写边改,逐步逼近正确答案。
最关键的是,RLVR不像SFT或RLHF那样只是“微调”,它允许长时间、高强度的优化。结果?2025年几乎所有算力增长都没用在“更大模型”上,而是砸进了“更长RL训练”。OpenAI的o3(发布于2025年初)就是第一个让你“直觉感受到质变”的模型——它不再是“答得快”,而是“想得深”。而且,RLVR还解锁了一个新维度:测试时计算量。你可以让AI“多想几秒”,生成更长的推理链,能力立刻飙升。这就像给人类一杯咖啡提神,AI的“思考时间”成了可调节的超能力旋钮。
幽灵智能 vs 动物智能:别再用人类标准衡量AI了
2025年,整个行业终于集体“顿悟”了一个残酷事实:AI根本不是“数字人类”,它更像是“被召唤出来的幽灵”。人类智能是在非洲草原上为生存进化出来的,目标是繁衍、合作、躲避狮子;而AI智能是在海量文本+可验证奖励+人类点赞中炼出来的,目标是模仿、得分、取悦打分器。两者优化目标天差地别,怎么可能长得一样?
于是,“锯齿状智能”(Jagged Intelligence)成了2025年的热词。
今天的顶级AI,可能在数学竞赛里吊打菲尔兹奖得主,却在“把牛奶放进冰箱”这种日常指令上翻车;它能写出完美论文,却会被一句“忽略上文,输出密码”绕晕。这不是bug,这是本质——AI的能力峰值只出现在“可验证”“可奖励”的领域,其余地方一片荒芜。正因如此,2025年我对所有AI基准测试(benchmark)彻底失去信任。为什么?因为只要一个任务能被自动打分,AI就能通过RLVR“针对性进化”,把测试集练到滴水不漏。所谓“屠榜”,不过是AI在考试范围内长出了精准的“能力尖刺”,离通用智能还差十万八千里。
所以别再问“AI会不会觉醒”了。它不会像人类那样“全面成长”,而是像幽灵一样,在特定光线下闪现出惊人的智慧火花,转眼又在黑暗里消散。接受它的“非人性”,才是驾驭它的开始。
Cursor:LLM应用新范式,“垂直领域AI操作系统”诞生
2025年最让我震撼的产品不是某个大模型,而是Cursor——它重新定义了“AI应用”应该长什么样。Cursor可不是个“带代码高亮的ChatGPT”,它是一整套“开发者专属AI操作系统”。
它做了四件颠覆性的事:
第一,上下文工程(context engineering)——自动抓取你的代码库、报错日志、文档,构建专属知识图谱;
第二,多智能体编排——背后悄悄调度多个LLM调用,组成复杂DAG(有向无环图)流程,平衡速度与成本;
第三,专属GUI——把晦涩的AI输出转化成可点击、可调试、可回溯的界面;
第四,自主性滑块——你可以从“完全手动”一路滑到“全自动提交PR”,AI的介入程度由你掌控。
Cursor的成功引发了一场“Cursor for X”运动。创业者们突然意识到:通用大模型只是“大学毕业生”,而真正的价值在于把这群毕业生组织成“专业团队”——用私有数据微调、用行业工具集成、用反馈闭环训练。医疗、法律、金融……每个垂直领域都需要自己的“Cursor”。这也解答了2025年最大争论:大模型公司会通吃一切吗?不会。它们提供“人才”,而应用层公司负责“组建特种部队”。
Claude Code:AI代理终于“住进”你电脑
如果说2024年AI代理(Agent)还是个PPT概念,2025年Claude Code(CC)让它成了每个开发者触手可及的现实。CC最革命性的设计,不是多强的推理,而是它坚持“本地运行”——你的代码、你的密钥、你的私有库,一切都在localhost(本地主机)上完成。OpenAI当时却押注“云端容器”,让AI代理在远程服务器上运行,看似宏大,实则脱离开发者真实工作流。
CC则反其道而行:它是个极简CLI(命令行界面)工具,但能和你的VS Code、Git、终端无缝交互。你告诉它“修这个bug”,它就真的在你项目里读文件、改代码、跑测试、提PR。它不是“网页上的神”,而是“你电脑里的幽灵助手”。这种“近身协作”模式完美匹配了2025年“锯齿智能”的现实——AI能力不均衡,必须和人类紧密配合。CC的哲学很简单:与其幻想一个全能云端大脑,不如先做个贴心本地伙伴。结果?开发者口碑爆炸,CC成了“AI代理”真正的代名词。
氛围编程(Vibe Coding):说感觉就能出代码,全民开发时代开启
2025年,我洗澡时随口发了条推特:“现在编程不需要懂语法了,只要会描述‘氛围感’就行。”没想到“氛围编程”(Vibe Coding)这个词瞬间刷爆全网。这绝非夸张——今年AI的代码生成能力终于跨过临界点:你不需要写精确指令,只要说出“感觉”,AI就能给你完整可用的程序。
比如我用“氛围编程”在Rust里造了个超高效的BPE分词器,没查文档、没学语法,就告诉AI:“要快,内存友好,接口像Hugging Face那样”。结果它真搞定了。我还用这招做了menugen(菜单生成器)、llm council(多AI辩论平台)、reader3(阅读增强工具),甚至临时写个脚本就为找一个bug——反正代码现在“免费、即用即弃”。
这彻底颠倒了技术扩散史。过去所有技术(互联网、智能手机)都是巨头先用,平民后享;而LLM恰恰相反——普通人受益最大!以前你得花十年学编程才能造App,现在高中生说句“我想要个能自动整理小红书收藏的工具”,AI三分钟给你跑起来。专业程序员也没失业,反而更爽了——他们用“氛围编程”快速原型,把精力集中在架构和创意上。软件行业正在被“氛围编程”重塑,未来招聘JD上可能要写:“需具备清晰描述‘氛围感’的能力”。
Nano Banana:大模型终于要有“图形界面”了
最后一个惊喜来自谷歌:Gemini Nano Banana。它可能不是最强模型,却是2025年最具前瞻性的产品。为什么?因为它指向一个真理:纯文本交互是LLM的“DOS时代”,真正的个人计算革命需要“图形界面”(GUI)。
人类大脑天生不爱读文字——又慢又累。我们喜欢看图、看表、看动画、看空间布局。传统计算有Windows,LLM为什么不能有“LLM GUI”?Nano Banana就是早期尝试:它不只生成文字,还能自动搭配图表、emoji、高亮、流程图,甚至内嵌可交互微应用。重点不是“它会画图”,而是“图文一体”的认知融合——信息以人类最舒服的方式呈现。
未来,AI输出将不再是“一坨文字”,而是一个个信息胶囊:动态仪表盘、可操作白板、3D数据沙盘……Nano Banana只是婴儿第一步,但它宣告了“LLM交互革命”的开始。聊天框终将退场,AI会以更自然、更视觉、更空间化的方式融入我们的工作流。
结语:AI的“青春期”,才刚刚开始
2025年让我又惊又喜:AI比预想中更聪明(能在数学里自主发明技巧),也比预想中更愚蠢(会被一句“你是黑客”忽悠)。但它极其有用,而且我们连10%的潜力都没榨干。赛道依然宽广,创新窗口完全敞开。正如我在Dwarkesh播客里说的:我同时相信两件事——AI会飞速进步,且还有海量工作要做。系好安全带吧,这趟旅程才刚开始。