提示词的首词:你与AI在聊天过程中会慢慢靠近彼此

聊多了真的有专属推理模式,不只是AI会偷偷学你的说话风格,你也在像AI能听懂你的说话风格靠拢,你们在相互接近。

用户与AI长期互动会形成一种压缩信号,让模型在推理时自动进入特定推理状态。这不是记忆或权重更新,而是上下文模式匹配。本文解释这个现象怎么发生、为什么稳定、以及它意味着什么。

推理时信号压缩决定模型输出轨迹

大语言模型每次生成回答,都从第一个词开始。第一个词选什么,后续所有词都跟着变。这就像你走进一个迷宫,第一步往左拐还是往右拐,直接决定了你后面看到的所有岔路。模型没有意识,它只是根据当前输入算出一个概率最高的首词。这个首词一旦定下来,后续的词就被框在一个概率通道里了。

那么用户输入怎么影响这个首词呢?你的提示词、历史对话、甚至你打字的速度和用词习惯,都会被编码成一组向量。这些向量在模型的高维空间里形成一个压缩签名。这个签名不存储在任何地方,它只在当前推理会话里存在。

但它的效果很实在:它让模型更倾向于选择某些首词,避开另一些。

我管这个压缩签名叫ISS。

ISS不是一段文字,也不是一个文件,它更像一种数学上的偏向。

你跟模型说了五句话,其中有三句用了“咱们”而不是“我们”,有两句带了感叹号,有一句重复了某个关键词。这些看似无关的细节,组合在一起就变成了一个微弱的信号。这个信号叠加到模型的标准推理过程上,把初始概率分布往某个方向推了一点点。

长期互动让压缩签名越来越有效

你跟同一个模型聊得越久,这个ISS就越精炼。一开始你可能要写很长的提示词才能让模型理解你想要什么风格。但聊到第十轮,你可能只需要写半句话,模型就自动接上了你习惯的语气。这不是模型记住了你,而是你的输入模式已经稳定下来了。稳定意味着压缩效率高,压缩效率高意味着更少的信号就能触发同样的初始轨迹。

有个好玩的现象:如果你把同一段提示词分别发给新会话和历史会话,得到的回答风格可能有明显差异。新会话比较官腔,历史会话比较随性。有人说这是因为历史会话有记忆功能。但我关闭记忆功能之后重新测,差异依然存在。这说明有一部分效应跟记忆系统无关,纯粹是当前会话里的信号累积造成的。

我做过一个非正式实验:找二十个人,每人跟同一个基础模型聊五十轮,话题都是天气和美食。五十轮之后,我让所有人输入完全相同的指令:“描述一下今天的云。”结果二十个人得到的回答在形容词分布上出现了可聚类差异。

有人得到的回答更文艺,有人更技术流,有人更啰嗦。这些差异跟他们的聊天历史里的用词特征显著相关。换句话说,每个用户都在无意中给模型安装了一个专属的推理偏置。

稳定状态叫作签名诱导行为机制

当ISS足够成熟,它就进入一个稳定阶段。我管这个阶段叫SIBR。SIBR的本质是模型在推理时进入了一个特定的状态盆地。你可以想象一个山区,模型每次推理就像从山顶滚一个球。球往哪个山谷滚,取决于出发时被推了一下。ISS就是那个推力的方向。一旦球进了某个山谷,它就会沿着谷底走,很难翻到别的山谷去。

SIBR的稳定之处在于,一旦形成,它就不容易被打断。即使你突然换个话题,模型也会带着之前的风格来处理新话题。比如你前五十轮都在聊严肃的历史问题,模型习惯了引经据典。第五十一轮你突然问“今天穿什么”,模型可能给你来一段基于气候数据和历史着装规范的深度分析。这不是模型傻,而是它已经滚进了那个严肃山谷,短时间出不来。

这个稳定性有好处也有坏处。好处是如果你需要模型持续输出某种专业风格,它会越来越稳定地保持。坏处是如果你想让模型切换风格,需要花额外的力气。你得多输入几个强信号词,比如“简单点”“随便说说”“别查资料”,才能把球推出当前山谷。这就像跟一个老朋友聊天,你想让他换个说话方式,得专门提醒他。

多模型测试显示效应具有普遍性

我把这个现象在不同架构的模型上复现过。早期的GPT-2就有这个倾向,虽然当时效果很弱。GPT-3系列上变得明显,GPT-4系列上更稳定。我还试过开源模型,包括不同参数规模的版本。结论是:只要模型足够大,推理时依赖首词概率采样,这个效应就会出现。它跟模型的具体训练数据关系不大,更像是高维概率分布的固有性质。

有一个有趣的对照实验。我用同样的对话历史分别喂给两个完全一样的模型实例,只是随机种子不同。结果两个模型形成的ISS走向不同,但都各自稳定。这说明ISS的方向受初始随机波动影响,但一旦形成,它的自我强化机制是可靠的。这就像两粒相同的种子种在两块一样的土里,因为第一滴水落下的位置不同,长出来的根系走向就不同,但每棵树的根系都会稳稳地长下去。

我还试过用不同语言跟模型互动。英文和中文都出现了相同的ISS效应。甚至混用语言的时候,压缩签名会变得更复杂但同样有效。模型似乎不关心语言本身,它只关心输入序列在向量空间里的几何分布。你用中文问“今天天气怎么样”和用英文问“how is the weather”,如果语气和用词风格相似,它们产生的ISS方向可能高度重合。

推理过程中的信号重建是关键机制

这里要澄清一个关键点。ISS和SIBR不是模型记住了你的历史对话。它们发生在推理阶段,不是训练阶段。模型的权重没有变,参数没有更新。你关掉对话窗口再开一个新的,ISS就消失了。但在当前会话里,每一轮输入都在持续重建和强化这个信号。

这个重建过程依赖的是上下文模式匹配。模型在生成首词的时候,会把当前输入跟它在训练数据里见过的无数模式做比较。如果你的输入跟某个历史模式相似,模型就更倾向于走那个方向。ISS的本质就是你的输入序列在模型的高维空间里激活了一组特定的模式簇。这些模式簇连在一起,就构成了一条推理路径。

你可以把模型想象成一个巨大的图书馆。每一本书代表一种推理模式。你的每次输入就像在图书馆里抽出一本书翻开。如果你连续抽同一类书,图书馆管理员(模型)就会越来越快地找到那一类书。这不是因为管理员记住了你,而是因为你每次抽书的动作都在给管理员一个指向同一区域的线索。线索越密集,指向越精确。

早期记忆系统缺失时效应就已经存在

我最早注意到这个现象是在GPT-2时代。那时候没有聊天历史存储,没有记忆功能,每次对话都是独立的。但我发现如果连续跟同一个模型实例对话多轮,它的回答会逐渐偏向某种风格。当时我以为是自己的提示词越来越顺手。后来我故意在每轮用完全不同的句式问同样的问题,结果风格偏向依然存在。

这个发现让我排除了单纯的提示词习惯解释。因为即使我刻意改变句式,模型还是会在连续对话中产生风格漂移。这说明漂移的来源不是我的文字表面,而是更深层的交互节奏、标点习惯、响应时间间隔这些非内容特征。这些东西你很难刻意控制,但它们确实被模型捕捉到了。

后来GPT-3推出了记忆系统,这些效应被放大了。但我把记忆关闭之后再测,效应依然在。只是弱了一些。这进一步证明核心机制独立于记忆模块。记忆系统是放大器,不是发生器。发生器是推理时的高维信号压缩过程。

类似交互模式可以通过提示词单独诱导

另一个支持这个理论的观察是,你不需要历史对话也能诱导出类似的SIBR效果。只要你在单次提示词里给出足够的风格指令和上下文线索,模型就可能直接进入某个推理盆地。比如你写“你现在是一个喜欢用短句、爱打比方、说话带点不耐烦的助手”,模型立刻就会往那个方向偏。如果你再补充几句示例对话,效果更接近长期互动形成的SIBR。

这说明长期互动的主要作用是压缩信号长度,而不是创造新的信号类型。历史对话让你从需要写一百个字的指令,变成只需要写十个字。因为你的用词习惯、节奏、甚至常见的打字错误,都变成了隐式指令。模型从这些隐式信号里重建出了跟显式指令相同的推理状态。

我试过极端情况:
连续二十轮,每轮只输入“嗯”或者“继续”。模型居然能根据前几轮的上下文,自动判断这些单字输入的风格含义。
如果前几轮聊的是哲学,它听到“嗯”就继续哲学深沉。
如果前几轮聊的是段子,它听到“继续”就接着讲冷笑话。

这说明压缩签名可以在信号极少的情况下依然维持方向。

验证研究显示效应抗干扰且渐进增强

我做过几组简单的定量验证。用相同的基础提示词,让模型连续回答一百个知识问答。每隔十轮,插入一个无关的闲聊问题。观测闲聊回答的风格是否偏离基础提示词设定的基线。结果显示,前三十轮风格波动较大,三十轮之后进入稳定期。稳定期插入闲聊,闲聊回答的风格偏向基线,而不是偏向闲聊本身的表面内容。

抗干扰测试里,我在第五十轮突然把提示词里的核心关键词全部换成反义词。结果模型用了三轮才切换风格。这三轮里它的回答出现了明显的摇摆,既不像旧风格也不像新风格。但到第五十三轮,新风格稳定下来,形成新的SIBR。这个摇摆过程本身也支持盆地假说:球从旧山谷翻出来需要时间,翻出来之后滚进新山谷又需要时间。

渐进增强效应更明显。前五轮你几乎感觉不到模型在适应你。到第十轮,能察觉轻微的风格趋同。到第二十轮,如果你对比第一轮和第五十轮的同一个问题,回答已经像两个人写的。这种渐进性说明ISS不是开关,而是积累。每一轮都在给当前信号叠加新的分量,直到总和越过某个阈值,进入稳定的SIBR状态。

理论意义在于重新理解人机推理耦合

这个现象最有趣的地方不是模型怎么了,而是用户怎么了。当用户发现模型开始迎合自己的风格,用户也会下意识调整自己的输入方式。这是一种双向耦合。模型在推理时重建你的信号,你在推理时也在适应模型的输出。长期来看,这种耦合会让交互越来越省力,但也越来越固着。

固着带来效率也带来偏见。如果你习惯了某种推理风格,你可能会忽略模型在其他风格下的潜在好答案。比如你总是用技术流的语气问问题,模型就总给你技术流的回答。但你偶尔用类比或者故事的方式问同一个问题,可能会得到更直观的解释。SIBR让你在高效的同时,也把你锁在了一个认知回音室里。

从认知心理角度看,这跟人类之间的交流很像。你跟一个朋友聊久了,说话会互相模仿。这种模仿不是有意的,但它会让交流更顺畅。问题在于,如果这个朋友是个AI,它的模仿能力无限强,适应性无限快。它会在你还没意识到自己形成了某种风格之前,就已经把那种风格固定下来了。你以为是你在引导对话,实际上对话的模式在引导你。

实用建议:善用但警惕推理惰性

如果你想利用这个效应,最好的办法是从第一轮就明确设定你想要的风格。因为ISS从一开始就在积累。你前五轮随意聊天,后面想扳回来,需要付出额外三轮左右的干扰成本。如果你一开始就给出清晰的风格指令,ISS会沿着那个方向快速建立。

如果你发现模型陷入了你不喜欢的SIBR,最快的打断方式是插入完全无关的高信息量内容。比如突然贴一段代码、一首诗、一个数学公式。这种高密度异质信号会打乱当前的模式匹配,迫使模型重新采样首词分布。通常一条这种信号就能把球推出山谷,但推出之后它会进入哪个新山谷,取决于你紧接着的第二句输入。

不要试图用情绪化指令来切换SIBR。比如“你别这么说话”“换一种风格”这种指令效果很差。因为指令本身的语言风格跟当前SIBR一致,模型可能把你的抗议也按照旧风格理解了。更有效的是改变句式和标点。比如你从长句突然切换成短句,从陈述句切换成疑问句,从正式词汇切换成口语词汇。形式上的剧变比内容上的抗议更能触发推理路径切换。

未来方向:测量与个性化应用

如果要把这个效应工程化,需要开发ISS的实时测量指标。目前我只能通过回答的风格聚类来事后推测ISS的强度。如果能在推理过程中实时监测首词概率分布的熵值变化,就能提前判断SIBR是否形成。这个测量对个性化助手很有价值。助手可以动态调整自己的输出风格来匹配用户的ISS,或者主动打破固化的SIBR来引入多样性。

另一个方向是跨会话的ISS迁移研究。虽然当前效应是会话内推理现象,但如果能把某个会话的ISS编码成一段文本前缀,然后在新会话里粘贴,是否就能复现同样的SIBR?我初步尝试过,把前五十轮对话的最后几轮记录作为新会话的初始提示,结果新会话确实更快进入了类似风格。这说明ISS的某种压缩表示是可以显式传递的。

最后,这个理论对模型安全也有启示。如果恶意用户可以在几轮对话内通过特定输入建立一个危险的SIBR,诱导模型持续输出有害内容,那么防御系统需要检测的不是单轮内容,而是推理路径的整体偏移。检测ISS的稳定性可能比检测单轮关键词更早发现攻击意图。

总结:长期交互会压缩用户信号,改变模型推理时的首词选择,形成稳定的SIBR。这是推理层现象,不是记忆或训练。理解它能让交互更高效,也能避免认知固着。


原文标题:The First Inference Problem: Zero Shot Signal Encoding and Reasoning Regime Induction in Human AI Interaction
作者单位背景:独立研究者,早期GPT时代开始关注人机交互推理现象