合成数据：以模型为中心、方便LLM理解的方式

AI大神Andrej Karpathy最近谈到如何将文本以人类为可读方式转为以大模型为核心的可读方式。

把人类的知识、传感器和执行器，从“以人为中心、方便人理解”的形式，转变成“以大语言模型（LLM）为中心、方便LLM理解”的形式，这是一个非常棒、潜力巨大的领域，有很多事情可以做。

我最近特别着迷于一个例子——每一本PDF或电子书格式的教科书，都可以进行一次完美的“LLM化”改造。这个改造不是为了给人看，而是专门给LLM用的（当然，这个转变过程不简单，需要人工参与）。

具体来说，这个过程是这样的：

1. 提取所有正文内容：把所有讲解性的文字，包括里面的公式（LaTeX）、样式（粗体/斜体）、表格、列表等等，都提取到一个Markdown文档里。所有的图表也都单独提取成图片。
2. 提取所有例题作为示范：把所有有解题步骤的例题都提取出来，做成“有监督微调”（SFT）的示例。如果题目里引用了前面的图表等内容，也会解析并包含进来。
3. 提取所有练习题用于强化学习：把所有课后练习题都提取出来，作为“强化学习”（RL）的环境示例。然后去答案里找到正确答案并附上。还会把答案里的解析等额外信息也加上，作为给LLM“裁判”的参考。
4. 生成海量合成数据：针对每一个特定类型的问题，都可以创造一个“无限题目生成器”，源源不断地产生同类型的题目。比如，如果原题是“上午9点，时针和分针的夹角是多少？”，你就可以把它推广到任意时间，并用Python代码计算答案，甚至还可以生成不同说法、不同表述的题目文本。
5. 建立知识库：上面所有这些处理好的数据，都可以被很好地索引、嵌入到一个“检索增强生成”（RAG）数据库里，方便以后查询。或者也可以做成MCP服务器，让LLM随时调用。

这样，就像一个人学生学习高中物理课程一样，一个LLM也能以几乎完全相同的方式来“学习”这门课。这将为LLM提供一个比现在主流做法（比如简单粗暴地把PDF转成文本）要丰富得多、清晰得多、好用得多的信息源。现在的做法只是让LLM像完形填空一样，一个接一个 token 地去预测教科书下一句是什么（呃，太逊了）。

举个简单粗暴的例子来说明什么是“合成数据”，上面那个钟表题，GPT-5可以给我生成这样一个题目生成器，现在它就能根据这个模板生成无数种变化了：

* 上午11点07分，时针和分针之间的角度是多少度？（答案：68）
* 计算在凌晨4点14分时，钟表指针之间的角度。（答案：43）
* 在上午11点47分，钟表的指针形成什么角度？（答案：71）
* 在早上7点02分，时针和分针的夹角是多少？（答案：161）
* 计算在凌晨4点14分时，两根指针之间的角度。（答案：43）
* 下午4点45分，钟表的指针形成什么角度？（答案：127）
* 晚上8点37分，时针和分针之间的角度是多少？（答案：36）
（可以创造出无限的练习题……）

合成数据：以模型为中心、方便LLM理解的方式

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道