穴居人表达法爆火背后：为什么你在疯狂烧token却还在说废话

#OpenClaw #AI提示上下文工程 #DDD泛在语言UL #符号推理与形式逻辑

2026-04-30 1 6K banq

网友说：“OpenClaw token使用要让我完蛋了。”
穴居人龙虾说：“没完蛋。是废话太多。别人用一堆词，明明几个字就能说明白。”

捏捏毛；敲敲 hedge；代码留着；功能发出去；token账单滚一边去。

加进 AGENTS.md ：

“回答要简短、技术向。用聪明穴居人压缩法：去掉废话、客套话、语气词、重复内容、可省的冠词。代码、命令、路径、网址、数字、警告、引用的报错信息要原样保留。需要清晰或保证安全的时候，就用正常精确的写法。”

一句话能说清你偏要写三段，token直接被你烧没了

这篇文章用大白话讲清楚“穴居人表达法”，解释为什么废话会烧掉token词元，如何用压缩表达提升信息密度，让智能体更省成本更高效。

提示词优化方向：高信息密度表达在智能体系统中的效率优势！

你废话越多，token烧得越快，花的钱越多，系统越慢，智能体输出的价值越低。反过来，你说话越压缩，信息密度越高，智能体跑起来越省钱越快越稳。这就是提示词的中心思想，正着说一遍：表达压缩提升信息密度，信息密度降低token成本，成本降低实现系统规模化。

你肯定见过那种提示词写成长篇大论的人。他自己觉得写得很详细很贴心，结果模型回给他一堆废话。他还在纳闷为啥智能体这么贵。根本原因就是他一句有用的话都没说清楚，模型只能在那猜，猜的过程全是烧钱。别笑，很多人干的就是这事。

所谓“穴居人表达法”，听起来像段子，其实是个硬核优化手段。核心动作就是把你说的每句话都砍掉没用的词，只留动作、结论、数据。说话像写命令行，像写日志报错信息，直接打点，不铺垫不转折不总结。你试试就知道了，效果立竿见影。

这套方法一旦用在智能体系统里，结果很直接。token用量往下掉，响应速度往上飙，成本降下来，系统稳定性涨上去。你用别人不用，差距大到离谱。这不是什么玄学，就是算账。

为什么大家一开口就变话痨

这个问题得从根上说。人类天生习惯聊天，不习惯输出纯信息。你想想你跟朋友说话，你会直接说“给我水”吗？不会，你会说“你能不能帮我倒杯水谢谢啊”。这种习惯被带进智能体系统里，直接变成成本灾难。

很多人写提示词的时候，脑子里想着要礼貌要周全。于是自动加一堆词进去。我觉得、可能、建议你、希望对你有帮助、仅供参考、你可以试试看。这些词有一个算一个，全都没有信息价值。它们只传递情绪，不传递动作。

模型本身是从人类语料里学出来的。人类语料里到处都是这种缓冲词。所以模型一开口就像在写作文，而不是在执行任务。它理所当然地认为说话就应该带铺垫带转折带总结。你给它一个简单问题，它能给你回三段废话。

结果一句话能说清楚的事，被扩写成三大段。token数量蹭蹭往上涨，信息密度哗哗往下掉。系统效率直接摔地板上，摔得粉碎。更气人的是，很多人还觉得“像人类一样说话”是个优点。在工程场景里，这简直就是成本炸弹，炸得你账户余额清零。

token为什么会被废话吃掉

token这个东西你当它是个计费单位就行。你说一个字就花一份钱。你说一句“我个人认为”，系统就多付五个字的钱。模型不会帮你判断哪些词有用哪些词没用，它只会忠实执行你的表达风格。

你的提示词如果写得像聊天，模型就会持续输出低密度内容。你让它写一段错误解释，它默认会先加一句“我理解你可能遇到了问题”，然后加一句“让我帮你看看”，再加一句“建议你尝试以下步骤”。每加一句都在消耗token，但有效信息就最后那一行命令。

表达冗余往上加，token消耗跟着往上加。token消耗往上加，成本直接往上飙。成本飙上去，系统就没法规模化。你想让智能体跑十万次调用，按你这么写，一次调用烧一百个废token，十万次就是一千万个废token，全是白花的钱。

所以第一刀必须砍在表达上。你不砍表达，你后面做什么优化都是白扯。就像是漏水的水管，你不先把洞堵上，你换再大的水泵也没用。

穴居人表达到底在干嘛

穴居人只是个比喻。意思就是回到最原始的表达方式，像山洞里住的那个人一样说话。只说关键动作，不带任何修饰。我给你举个例子你就秒懂了。

普通人说：“你可以尝试检查一下配置文件，看看里面是不是存在语法错误或者路径配置不对的地方。”穴居人直接说：“查配置文件。”你发现没有，信息一点没丢，动作反而更清楚了。你本来就知道要查配置文件，前面那堆话全是废话。

再看技术场景：
普通人说：“你可以运行以下命令来查看端口占用情况，这个命令会列出所有正在监听的端口。”
穴居人直接扔命令：lsof -i :8080。

命令本身就是全部信息，多解释一个字都是噪音。你如果看不懂这个命令，你也不应该在那台机器上操作。

所以穴居人表达法本质是一个压缩算法：输入一段话，算法开始工作。删除所有冗余修饰词。删除所有缓冲语。删除所有重复内容。保留核心动作和核心数据。输出最短的那个表达版本。就这么简单，没有魔法。

你训练自己用这种方式写提示词，效果立竿见影。模型输出变短了，信息密度变高了，token用量下来了，成本跟着下来了。全过程不需要任何高级技术，就靠你管住自己打字的手。

那几句奇怪的话其实是操作指南

你可能见过这几句：捏捏毛。敲敲 hedge。代码留着。功能发出去。token账单滚一边去。这几句看起来像是喝多了写的段子，其实每一句都在定义具体动作。我给你拆开讲。

捏捏毛，意思是清理冗余。你写好的那段话，拿起来捏一捏，把多余的水分挤出去。比如“我觉得可能需要考虑一下”这种，直接删光。剩下“执行”两个字就够了。你捏得越狠，信息密度越高。

敲敲 hedge，意思是去掉模糊表达。hedge在金融里叫对冲，在表达里就是那些躲躲闪闪的词。可能、也许、大概、似乎、我个人认为、仅供参考。这些词全部敲掉。让结论变硬变直。对就是对，错就是错，执行就是执行。

代码留着，这条太直白了。代码、文件路径、命令行、配置参数，这些技术信息必须原样保留。因为这些才是真正有价值的部分。你写一大段解释，不如直接给一行能跑的代码。代码本身就是最高密度的信息表达。

功能发出去，强调结果导向。你写提示词的目的是让智能体完成功能，不是让智能体觉得你人很好。别为了礼貌去加“如果你方便的话”。直接说需求，直接拿结果。

token账单滚一边去，这句最狠。意思是别为了“看起来舒服”去浪费token。你以为你写得温文尔雅很有素质，模型觉得你写得啰里八嗦很难解析。你账户里的token在疯狂燃烧，你还在那写“希望没有打扰到您”。停了吧。

AGENTS.md那段话到底在定义什么

有一段AGENTS.md里的规则，其实就是智能体输出规范。你直接拿去做系统提示词就行。核心逻辑特别简单。

回答要简短，偏向技术表达。删除所有客套话、语气词、重复内容。保留代码、命令、错误信息原文原样。在安全要求高或者精度要求高的场景里，恢复严谨表达。

这段话本质上给模型加了个过滤器。模型原来的输出风格是聊天模式，你给它加上这个规则，它就切换到压缩模式。输出明显变短，结构明显更清晰，废话明显减少。成本直接往下掉。

你把它加进系统里试试。随便给模型一个问题，原来它能回你两百个token，现在可能就回你五十个。信息量没少，因为原来那一百五十个全是废话。这种优化不需要改代码不需要换模型，只需要改一行提示词。

很多人忽略这件事，觉得写提示词是小学生都能干的事。结果同样的模型，人家用得又便宜又快，他用得又贵又慢。区别就是人家多写了那段规则，他没写。

信息密度才是关键指标

很多人评价模型回答好不好看，看的是写得通不通顺有没有人情味。工程里不看这些，工程里看的是信息密度。信息密度高的表达，特点非常明显。字数少，信息量大，动作清晰，没有模糊空间，拿到就能执行。

信息密度低的表达，特点也很明显。句子长，修饰词多，结论模糊，需要反复确认，看完还得再问一遍。你自己判断一下，你想要哪种。

我给你举个真实例子。你问模型“这个部署为什么失败”。低密度回答：“看起来你的配置文件可能存在一些问题，我建议你可以重新检查一下路径设置，也许还需要确认权限是否正确。”高密度回答：“权限不足。执行chmod 755 config.yaml。”

高密度那个回答用了几个词？六个有效词加一个命令。低密度那个用了多少个词？三十多个词。前者你拿到命令直接执行就解决了。后者你看完还得再问“具体什么问题”。

智能体系统一旦进入规模化运行阶段，信息密度直接决定你的成本曲线。密度越高，每个token产出的价值越高。密度越低，系统越像在烧钱取暖。你跑十万次调用，密度翻一倍，成本砍一半。这不是开玩笑。

什么场景必须收敛成穴居人

有些场景特别适合穴居人表达法，不用就是浪费。自动化脚本执行，你让模型写一个脚本，它给你加一百行注释说明。你删掉注释，脚本本身四十行就够。日志分析，你让模型分析日志，它先写一段“根据日志内容我观察到”。你直接让它输出错误行就行。

错误排查，你问模型怎么修bug，它给你写三段背景介绍。你直接让它输出修复命令。接口调用，你让它生成请求参数，它给你解释每个参数是干嘛的。你直接要JSON。批量任务调度，你让它写调度配置，它先讲一遍调度原理。你直接要cron表达式。

这些场景的共同特点是需要精确动作，不需要情绪表达。你让模型在这些场景里写“我建议你尝试”之类的客套话，基本等于让它故意拖慢系统。反过来，你用穴居人风格，系统会更稳定。因为输出更确定，没有模糊空间，不会出现意外内容。

我见过一个团队，把所有内部提示词改成了穴居人风格。结果token用量直接降了百分之四十。响应时间从两秒降到了零点八秒。他们什么都没换，就换了写法。

什么场景要适当恢复人类表达

压缩表达不是万能药，有边界。涉及安全操作的场景，你得说清楚。比如你让模型生成删除数据库的命令，它给你输出“rm -rf”，那就完蛋了。这种场景需要完整表达，需要确认，需要警告信息。

法律条款解析，你一个字都不能压缩。原文是什么就是什么，压缩会丢失关键细节。医疗诊断建议，更不可能压缩。你让模型输出“吃这个药”，病人不知道剂量不知道频次。复杂逻辑推导，比如你让模型解释一个分布式事务的一致性问题，压缩表达会丢掉因果关系。

还有一种情况是教学场景。你在教一个新人怎么看系统日志，你不能直接说“查日志”。你得展开讲，告诉他日志在哪里，怎么看时间戳，怎么过滤错误级别。这时候需要适当恢复人类表达，让用户理解机制。

所以正确的策略不是一刀切。默认情况下压缩表达，能省就省。关键场景里恢复完整表达，该详细就详细。根据风险级别动态调整，风险低就压缩，风险高就展开。这才是成熟系统的行为，不是死脑筋。

为什么这套方法会越来越重要

你往后看几年，智能体会越来越多，调用量会越来越大。token成本会从现在的无所谓变成核心指标。你现在觉得一段回答多几十个token没什么，一顿饭钱而已。当你的系统一天跑十万次调用，多五十个token就是五百万个token，一个月就是一亿五千万个。

一亿五千万个token，按现在的价格算，你说多不多。而且这只是多出来的废话部分，不是你真正用的有效部分。企业一旦规模化部署智能体，第一件事就是优化输出密度。因为这是成本的大头，你跑得越多，浪费越明显。

谁先解决这个问题，谁的系统就更便宜，响应更快，运行更稳定。你比别人少花一半的钱，拿到一样的结果，你猜竞争的时候谁赢。所以穴居人表达法看起来像玩笑，本质上是个工程优化手段。它解决的不是好不好看的问题，是能不能规模化和省不省钱的问题。

你不用这个方法，你的竞争对手在用。你不砍废话，你的token在烧。你继续写“我觉得可能也许”，你的账单继续膨胀。这不是危言耸听，这是已经发生的事。

最后一句直接收尾

表达压缩带来信息密度提升，信息密度提升带来token词元效率提升，token效率提升带来系统可规模化。你写一句废话，系统多花一分钱。你删一句废话，系统多赚一份效率。这件事没有玄学，就是算账。你算明白这笔账，你就知道该怎么写了。算不明白，你就继续烧钱。

穴居人表达法爆火背后：为什么你在疯狂烧token却还在说废话

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道