4.7没有变笨,4.7把责任退回给你。
你表达模糊,输出就模糊;
你表达清晰,输出就精准。
这不是性能问题,这是契约变化。
很多人误判“退化”,其实是工作流不匹配。你拿旧锤子敲新螺丝,然后说工具不行,这就有点幽默。
模型能力变化本质:性能提升与行为收紧同时发生
编码、创意写作、结构化任务能力明显增强,这些任务本身具备清晰目标和约束条件,因此4.7的“字面执行机制”反而提升效果。你给明确目标,模型执行得像外科医生一样精准。
模糊提示、多轮对话、长上下文检索表现下降,这些场景依赖模型主动补全意图。4.7直接拒绝脑补,于是表现看起来“变差”。实际上模型没有丢能力,它只是拒绝替你思考。你把模糊当灵活,它把模糊当错误输入。
认知冲突来源:不同人测量不同工作流
Reddit用户说退化,因为他们用的是“模糊驱动流”;Arena榜单显示4.6更强,因为测试偏向指令跟随评分;Anthropic官方说一切正常,因为模型符合设计目标。
这些观点全部成立,因为他们在测不同东西。一个在测“猜意图能力”,一个在测“执行精度”,一个在测“设计一致性”。你如果不区分指标,讨论就会变成鸡同鸭讲,声音很大,信息很少。
核心原则重构:清晰意图成为唯一杠杆
清晰意图直接决定输出质量。你写的不是提示词,你在写契约。(掌控提示词的信号结构:用符号逻辑打破认知牢笼获自由思维! )
意图分为两个层级:战略上下文和任务指令。
- 战略上下文定义长期稳定目标,例如产品方向、用户是谁、什么不能做、什么算成功;
- 任务指令定义当前动作,例如“现在生成什么结果”。
我再讲关键点:你只需要写一次战略上下文,然后复用。你每次只写任务意图。这样你不重复输入背景信息,同时减少token成本。这个结构像搭地基,你地基稳,房子怎么盖都不会歪。
CLAUDE.md机制:把长期意图固化为系统记忆
重要的先说:把战略上下文写进CLAUDE.md,这个文件在每次会话自动加载。你不用每次解释“我们在做什么产品”,模型已经知道。
操作逻辑:把不需要每次读取的信息拆到其他文件,例如strategy.md。
CLAUDE.md负责核心原则,其他文件负责扩展说明。这种结构让上下文加载变成“渐进披露”,而不是一次性灌输。
现实效果:你减少重复输入,你降低成本,你减少注意力浪费。你从“反复解释项目经理”升级成“只下命令的负责人”。这才是效率跃迁,不是换模型版本。
意图表达方式转变:从命令式到声明式
你不再告诉模型“怎么做”,你定义“什么叫成功”。模型自己循环执行直到满足条件。
LLM擅长循环优化目标,而不是执行固定步骤。你写步骤越多,模型越受限;你写目标越清晰,模型越自由。你给它规则,它像员工;你给它目标,它像合伙人。
结果是:声明式表达让模型自动迭代,减少人工干预。你不需要盯着每一步,你只需要定义终点。这种思维转变比任何prompt技巧都值钱。
行业趋势对齐:Anthropic与OpenAI策略趋同
Anthropic强化“字面执行”,OpenAI强化“意图理解”。两家公司从相反方向逼近同一个能力模型。
未来核心能力不是“写长prompt”,而是“表达清晰意图”。
模型越来越聪明,但不会替你做模糊决策。你表达能力成为瓶颈,这听起来有点残酷,但这是事实。
我再说一句扎心的:模型进化速度超过大多数人的表达能力,这就是为什么很多人觉得“模型变差”,其实是自己没升级。
十个关键操作策略:让旧提示词适配新模型
这些策略不是技巧合集,而是围绕“减少歧义”展开。你所有调整都指向同一个目标——让模型不需要猜。
下面逐条展开核心动作,并保持实用性而不是口号:
你把意图前置写入CLAUDE.md,你停止重复解释背景,这一步直接降低成本并提升一致性。
你默认使用Extra high推理等级,你避免盲目使用max,因为max会过度思考导致速度下降。
你在任务中动态切换推理强度,你只在困难子问题上使用max,其余时间保持高效模式。
你对旧prompt做回归测试,因为tokenizer变化导致成本上升,你必须重新评估单位正确输出成本。
你把多个问题一次性提问,你停止多轮“滴灌式沟通”,因为每一轮都会叠加推理负担。
你用正向示例替代否定规则,你展示理想输出而不是列出禁止行为。模型模仿能力远强于规则解析能力。
你删除进度脚手架提示,例如“每三步总结一次”,因为4.7已经自动生成高质量进度信息。
你明确要求并行子任务执行,你主动指示spawn subagents,否则模型默认减少调用。
你优先审查计划而不是代码diff,因为意图偏差在计划阶段更容易修正,成本更低。
你使用adaptive thinking替代固定token预算,否则API直接报错,这个属于必须修改的底层调用逻辑。
成本与性能现实:token增加但效率可控
4.7 tokenizer导致输入token增加1.0到1.35倍,你不优化prompt,成本一定上涨。
Anthropic同步提高速率限制,这意味着吞吐能力提升。你真正要关注的是“每个正确输出的成本”,而不是单次调用费用。
如果你不做测试直接迁移模型,那不是技术问题,那是管理问题。你需要基于业务场景验证,而不是听社区情绪。
工作流重构结论:你不需要更多指令
结论收紧:你不需要更长prompt,你需要更清晰意图。
把对比讲清楚:4.6看起来更聪明,因为它帮你填坑;4.7看起来更冷,因为它拒绝填坑。一个像热心但爱脑补的同事,一个像严格按合同执行的律师。你选哪个取决于你工作方式。
最后给一个判断标准:如果你发现模型“变笨”,先检查自己表达是否精确。大概率问题不在模型。
总结
Claude Opus 4.7通过停止意图猜测强化执行精度,迫使用户从模糊指令转向清晰目标表达,提示词设计从堆规则转向构建上下文与成功标准,工作流因此全面重构。