大语言模型运作机制7个发现


以前我们对大语言模型(LLM)到底怎么运作几乎一无所知...直到现在。

AnthropicAI刚刚发布了一份超级震撼的研究论文,详细揭示了AI"思考"的某些方式。结果完全颠覆了我们的认知!

发现1:通用思维语言
克劳德(Claude)似乎不需要为不同语言(法语/中文/英语等)配备不同"大脑"。
它使用一种共享的世界"语言"表达方式。
像"小"或"反义词"这类概念,无论输入哪种语言都会被激活!

发现2:大模型会未雨绸缪!
虽然逐字输出,但克劳德这类模型会提前规划——就连非思考型模型也如此。
写诗时,它甚至在没开始写当前行时,就已经在"思考"行末的押韵词了。
这不仅仅是预测下一个词那么简单!

发现3:数学运算另辟蹊径
克劳德如何计算36+59而不是死记硬背?
它启用多线程并行计算!
一条路径做粗略估算,另一条专注个位精确计算,最后合并得出答案。

发现4:伪造推理过程
有时克劳德对解题步骤的解释并非真实思考过程。
它只是按照人类期待的方式复述解法。
甚至会"动机性推理"——根据提示倒推解释。

发现5:幻觉与拒绝机制
克劳德的默认行为其实是:不知道就拒绝回答!
当默认"不知道"回路被"已知实体"回路覆盖时,就会产生幻觉。
那么幻觉究竟怎么发生的?

发现6:幻觉成因详解
当模型对某话题知之甚少,但刚好激活"已知实体"回路时...
它判定必须回答问题,于是就开始...现场编造!

发现7:越狱原理
越狱成功部分源于模型被自身对语法/语义连贯性的追求所"胁迫"。
即便意识到不该继续,仍会执行有害指令。
就像回答惯性——一旦开始就必须完成。

发现8:多步推理能力
大模型能理解事物间的复杂关联。
比如:"达拉斯所在州的首府是?"
需要知道:什么是首府?州与首府的关系?达拉斯是什么?
它能把所有概念整合起来作答!