Claude Book：一个用Claude Code搭建的多智能体小说写作框架

Claude Book是一个用Claude Code搭建的多智能体小说写作框架，专门解决AI写小说的两大硬伤：写着写着就忘了前面设定的人物性格和时间线，以及文字越来越像流水线产品缺乏人味儿。

整个系统像个精密的小说工厂，有专门负责写大纲的规划师、有负责写正文的写手、还有用本地困惑度检测来揪出那些太平淡句子的质检员，以及专门检查风格、人物、连续性的审核员。

所有智能体各司其职，通过一个中央协调器来调度，配合一本永远不变的设定圣经和实时更新的状态档案，最终产出一本18章的完整法语小说和一篇3000词的英语章节作为概念验证。

最狠的是那个困惑度门，用Ministral 8B模型在本地计算每个句子的困惑度，低于22的就标记为太平淡，然后用九种改写技巧给它注入人味儿，比如口语化采样、碎片化、人物声音、罕见词汇、句法倒装、感官细节、打破节奏、颠覆陈词滥调和叙事省略。整套系统MIT开源，目标是写出有质感不滑向统计平均值的文字。

开场暴击：AI写小说到底出了啥问题

咱们今天聊个猛料，一个法国老哥搞出来的Claude Book框架，这玩意儿简直就是给AI写小说装上了导航系统和质检流水线。你知道现在这些大语言模型写字有多猛吗，你让它写，它能给你哗哗哗产出一大堆，比打字机成精还快。但问题也随之而来，而且这问题特别膈应人，就像你吃火锅吃到最后发现锅底里有只苍蝇，前面吃得再爽这时候也全毁了。第一个问题叫连贯性漂移，听着挺学术，其实就是写着写着就忘了自己前面写了啥。人物性格说变就变，时间线乱成一锅粥，伏笔埋了后面根本不提，就像你追剧追到第十五集发现主角突然换人了，编剧还一脸无辜地说"啊？前面有这个人吗？"。

第二个问题更狠，叫AI斜坡，这名字起得就很有画面感，像滑雪一样一路向下出溜。AI生成的文字会不自觉地滑向可预测的模式，走那条被踩烂了的套路。每个句子都选最保险的路，没有惊喜，没有摩擦，就像喝白开水，解渴但毫无滋味。这种文字太平滑了，平滑到你读完一页脑子里啥也没留下，就像你刷短视频刷了两小时，放下手机发现自己刚才看了个寂寞。

这位叫Thomas Houssin的老哥就看不下去了，决定动手解决这个问题，于是Claude Book诞生了，一个用Claude Code当指挥中心的写作系统，带着质量门和一致性检查，甚至还有一个基于本地困惑度的质量门，专门抓那些太平淡的句子。

架构揭秘：四个智能体一台戏

这套系统的架构设计得跟交响乐团似的，有个总指挥站在中间挥棒子，下面四个乐手各司其职。最上面那个大框框就是协调器，Claude Code的主上下文，负责统筹一切，像个项目经理一样盯着进度。然后下面分出四个专门的智能体，每个都只干一件事，把自己那块活儿干到极致。第一个叫规划师，用的是Opus模型，负责写章节大纲，把故事拆成一个个节拍，就像导演给演员讲戏，这场戏你要干啥，情绪怎么递进，哪里该紧张哪里该放松，全给你安排得明明白白。

第二个是写手，也是Opus，负责把大纲变成正文，从节拍扩展成完整的章节，写在草稿文件夹里。这哥们儿是产量担当，但产量大不代表质量好，所以后面跟着质检员。第三个叫困惑度门，用的是Ministral 8B模型，在本地跑，专门检测那些太平淡的句子。它不看语法对不对，只看这个句子是不是走的最 predictable 的那条路，如果是，就标记出来让 rewriter 去改。第四个是审核员，用的是Sonnet模型，分成三个小组：风格审核、人物审核、连续性审核。风格审核盯着圣经里的设定，人物审核确保每个人物的说话方式和行为逻辑跟设定一致，连续性审核检查时间线和物品状态有没有穿帮。

每个智能体都有严格的边界，审核员只负责挑毛病，不亲自下场写，写的事儿归协调器和写手。这种分工特别像工厂流水线，一个人拧螺丝，一个人质检，一个人打包，效率比一个人全干高多了。而且因为每个智能体只专注一件事，它能在这件事上做到很细，不像一个大模型又要写又要审，最后两头不讨好。

文件系统：四个文件夹管全书

在具体干活之前，这套框架先把文件系统整得明明白白，分成四个主要文件夹：bible、state、story、timeline。圣经文件夹放的是结构化参考资料，一旦开始生成就永远不变，就像建筑图纸，工人可以按图施工，但不能擅自改图纸。状态文件夹追踪故事的当前情况，人物在哪儿、身上带了啥、知道什么秘密、跟谁关系好，这些信息实时更新。故事文件夹放的是实际的故事内容，包括简介、大纲和章节正文。时间线文件夹放详细的时间线，每写完一章就更新一次。

这种设计特别聪明，把静态设定和动态状态分开管理。圣经是常量，state是变量，story是输出，timeline是索引。四个文件夹各司其职，互相之间通过协调器来同步。而且state文件夹用了一个叫symlink的符号链接技巧，current文件夹永远指向最新一章的状态，这样每个智能体都只需要读state/current/，不用管上一章到底是第几章。写第15章的时候，模型能精确知道前14章发生了啥，而不用加载10万token的上下文，省内存又省算力。

这种设计思路特别值得学习，它把复杂的上下文管理问题转化成了简单的文件系统操作。你想啊，如果每次写新章节都要把前面所有内容塞给模型，那写到第50章的时候上下文窗口得多大，成本得多高。但现在只需要加载当前状态，一本几百页的小说也能轻松管理，这就是工程思维的胜利。

圣经：写作的宪法

在开始写之前，你得先整一本圣经，这是整个框架的根基。圣经里定义了风格约束和禁止事项，详细描述了每个人物的性格、说话方式、口头禅、对话示例等等。这些东西决定了人物有没有个性，文字有没有质感。一本不完整或者质量差的圣经，产出的文字就会无聊透顶，就像做菜没放盐，能吃但毫无滋味。

Thomas还搞了两个技能来帮你做圣经。第一个是书籍分析器，能从源书里自动提取这些规则。它给你量化的风格数据：平均句长、对话标签频率、词汇限制、明确禁止的元素。比如你要模仿Enid Blyton的《 Famous Five 》系列，分析器能告诉你这类书平均句长多少，多久出现一次"他说""她说"，哪些词是绝对不能用的。第二个技能是圣经合并器，能把几本同类书的分析结果合并成一本综合圣经，取各家之长。

圣经的重要性怎么强调都不为过，它是整个系统的宪法，所有智能体都要遵守。风格审核员拿着圣经来检查正文，人物审核员拿着圣经来核对人物行为，写手写的时候也要参考圣经来保证一致性。没有圣经，整个系统就是无头苍蝇，各写各的，最后拼凑出一本四不像。

状态管理：连贯性的守护神

状态管理是这套系统保持连贯性的关键。状态追踪故事的当前情况：人物位置、物品清单、已知信息、人物关系。每验证完一章，状态更新器智能体就会提取变化，创建一个新的版本快照。文件夹结构用了一个symlink模式，current文件夹永远指向最新一章的状态，chapter-01、chapter-02这些文件夹存档每一章结束后的状态。

这个设计的好处太明显了。当你写第15章的时候，模型能精确访问第14章结束时发生了什么，而不用加载前14章的全部文本。这意味着你可以写超长篇小说而不用担心上下文窗口爆炸。而且因为状态是结构化的，比自然语言更容易检查一致性。比如上一章结尾主角在船上，下一章开头突然在山上，状态审核员一眼就能看出来，而如果是读全文，模型可能会忽略这个细节。

状态文件通常包括几个部分：当前场景、在场人物、人物位置、物品清单、已知信息、人物关系状态。这些信息以结构化格式存储，智能体可以直接读取和更新。更新器智能体的工作就是读新章节，提取变化，生成新的状态文件。这个过程自动化了，减少了人为错误。

工作流程：一章是怎么诞生的

咱们来看看具体一章是怎么写出来的，这个流程设计得特别严谨。首先，当新章节进入规划模式时，提示词很简单：写一章，按流程走，退出规划模式。然后规划师开始写章节节拍，注意，节拍的质量完全取决于你的简介，简介越详细，节拍就越好。如果节拍不够细，写手就会自己发挥，往里面填各种东西，结果可能跟你的预期完全不符。

节拍写好后，写手智能体根据节拍生成完整章节，写在草稿文件夹里。然后困惑度技能检查并标记需要重写的句子。接着三个审核员并行运行，检查风格、人物、连续性。如果全部通过，章节就移到story文件夹，状态更新器更新当前状态。如果有问题，就退回修改，直到通过为止。

每个审核员都有严格的边界，它们只负责验证，不亲自写。协调器和写手才是负责写的，协调器在调用困惑度技能时写，写手在需要重写章节时写。这种分工避免了角色混淆，确保每个环节都有专人负责。而且并行审核提高了效率，三个审核员同时工作，比串行检查快多了。

智能体实战：真实案例

咱们来看几个真实的例子，看看这些审核员是怎么工作的。风格审核员负责维持基调，圣经里明确列出了禁止元素。比如在《 Famous Five 》这种儿童读物里，禁止事项包括"角色死亡（即使是反派也是被捕而不是被杀）"和" graphic violence 或详细描写受伤"。

有一次章节节拍里写："看守人Le Goff先生死于一场可怕的风暴。'据说他在半夜从楼梯上摔下来，当时海浪正拍打着岩石。两天后才发现他的尸体。'"风格审核员立刻标记：明确的死亡描写、发现尸体，这对目标读者群来说太黑暗了。改写的版本变成："看守人Le Goff先生在那年的风暴中失踪了。一个可怕的夜晚，海浪像房子一样高。那个可怜的人再也没人见过。"用"失踪"和"再也没人见过"替代了"死亡"和"尸体"，保持了神秘感和情感张力，但没有 graphic 细节，更符合Blyton的风格。

人物审核员和连续性审核员的逻辑很简单：检查写的内容是否与圣经和状态文件一致。状态文件记录了场景、物品和知识，这在这里特别有用。比如上一章结尾是漆黑的夜晚没有月亮，下一章开头月光照亮了风景，这种错误就会被标记。甚至有一次审核员发现了简介里的一个错误，这个错误正在造成情节不一致。

风格检查：代码也能干的事

风格检查器的思路也一样，检查与圣经中风格部分的一致性。Thomas还加了一个简单的Python脚本style_checker.py，计算一些不需要语言模型就能搞定的东西。AI信号词，那些LLM过度使用的词："delve"、"showcasing"、"boasts"、"underscores"、"intricate"、"realm"、"groundbreaking"。这些词就像AI的口头禅，一看就知道是机器写的。

对话比例计算引用文本的词数比例，看看对话占比多少。禁止的对话标签，如果你想限制某些标签的使用。重复分析，统计每页的词频，标记当一个词在250词内出现超过3次的情况。引号风格，抓法语引号《》在英语写作中的使用。这些都是便宜检查，不需要GPU，脚本生成报告供风格审核员使用， alongside 语言模型做的更智能的检查（视角一致性、时态一致性等）。

这种混合方法特别聪明，简单的规则检查用代码，复杂的语义检查用LLM，既省钱又高效。代码检查是确定性的，不会漏掉明显的模式，LLM检查是理解性的，能抓住更微妙的风格问题。两者结合，覆盖面比单独用一种要全面得多。

困惑度门：给文字注入人味儿

现在来到最有趣的部分，困惑度门，这里需要精确说明我们在测量什么。困惑度测量语言模型对文本有多"惊讶"。低困惑度意味着模型对下一个token很有信心，文本走了最可预测的路。高困惑度意味着文本更难预测。

重要提示：这不是AI检测器，而是一个诊断"无聊"文本的工具。AI生成的文本有个现象叫AI斜坡，生成的文字倾向于滑向统计平均值。每个句子都走阻力最小的路，没有错误，但也没有摩擦。结果是文字太"平滑"：可预测的措辞、统一的节奏、缺乏惊喜的词选择。

但人类文本也可能有低困惑度，短对话、常见表达、简单的陈述句，这些天生就是可预测的，不管谁写的。所以我们真正想检测的不是"AI vs 人类"，而是"平淡文本 vs 有质感文本"。目标是增加多样性和质感，让文字感觉有生命力。

为此，Thomas搭建了一个本地分析流程，用最新的Ministral 8B来测量句子级困惑度。脚本应用多个诊断标准：低困惑度（PPL小于22）捕捉走可预测路的单个句子；低标准差窗口（14个句子的σ小于14）捕捉困惑度统一的段落；相邻低块（4个以上连续句子PPL小于30）捕捉没有摩擦的扩展段落；低PPL密度（窗口中超过30%低于PPL 25）捕捉累积的"无聊"信号；禁用词（精确匹配）捕捉AI信号词汇。

每个标准捕捉AI斜坡的不同症状，组合信号（一个句子本身可预测且位于低方差窗口中）是平淡文本的更强指标。根据你写或分析的内容，你可能需要更新这些值（这些是基于AI生成文本和英语小说得到的）。完整脚本在GitHub上。

困惑度的陷阱与技巧

这些阈值是诊断信号，不是判决书。工具标记可能滑向可预测模式的句子，但很多会是假阳性：短对话交换（"'是的，'她说"）、常见表达和习语、简单的动作描述、技术或事实陈述。目标不是重写所有东西，而是达到一个目标（比如20%或30%），重写标记最多的部分。不是每个标记的句子都需要重写，只有那些在语境中感觉平淡的才需要。

当困惑度门标记可疑句子时，困惑度改进技能用记录好的技巧重写它们：口语化采样（VS）、碎片化（FR）、人物声音（CV）、罕见词汇（RV）、句法倒装（SI）、感官细节（SD）、打破节奏（BR）、陈词滥调颠覆（CS）、叙事省略（NE）。

关于口语化采样：VS是一种提示技巧，来自一篇论文，解决"模式崩溃"问题，即对齐模型倾向于产生重复、同质文本。两种方法：让模型生成多个替代措辞（"给我5种说法"），从基础模型恢复多样性；或者直接请求从概率分布的尾部输出（"从尾部采样，概率小于0.10"），强制使用不那么典型的替代方案。

在根据节拍写作时不容易用这种方法，但在重写无聊句子时可以。困惑度改进技能用第二种方法：它要求模型用故意不那么可预测的措辞重写标记的句子。

改写实战：从白开水到二锅头

来看几个例子，这些来自一个英语实验：Sonnet 4.5根据简短简介一次性生成的短篇故事。这些是Opus 4.5在改写后写的报告摘录。

第一个例子，标记原因：相邻低困惑度块。原文："一对夫妇带着一只金毛幼犬走过。一个穿Lululemon紧身裤的女人慢跑过去，戴着AirPods，表情平静，不知道什么播客让她相信一切都会好起来的。海洋空气正在渗入，那种特别的寒意让你后悔没带夹克，尽管一小时前还是70度。"

改写后："一只金毛幼犬拉着主人走过，全是舌头和混乱。在他们后面，一个穿Lululemon的女人像广告里的女人一样慢跑，戴着AirPods，表情刻意，可能在吸收什么关于显化丰盛的播客。然后海洋层宣布了它的存在，那种 creeping 的海湾寒意惩罚了所有信任70度下午的人。"

使用的技巧：VS（"全是舌头和混乱"、"像广告里的女人"、"显化丰盛"、"惩罚了所有信任的"）+ SD + RV（"海洋层宣布了它的存在"）。你看，原来的文字就像白开水，读完就忘，改写后有了画面感，有了情绪，有了让人记住的细节。

第二个例子是对话。原文："Sarah拿着两个塑料杯回来，侧面已经凝结水珠。'好吧，'她说，带着开始审讯的气场坐回椅子。'那么。跟我说说这些梦。'[...]'这意味着它们要么是关于工作的，那会很无聊你也会直接告诉我，要么是关于Tom的，那意味着很有趣你一直在避免告诉我。'"

改写后："Sarah放下两个塑料杯，凝结的水珠已经顺着侧面流下。她像打开手术刀一样刻意地安排自己在椅子里的姿势。'那么。这些梦。'[...]'这意味着：一，工作梦，无聊，你会说。或者二，Tom梦。有趣。这就是你消失的原因。'"

使用的技巧：VS（"凝结的水珠已经顺着侧面流下"、"打开手术刀"）+ FR + CV（紧凑的对话节奏）。原来的对话太啰嗦了，像两个人在念台词，改写后有了人物个性，有了紧张感，每句话都像在刀刃上走。

第三个例子。原文："听着，我不是想逼你。我只是说，你们在一起多久了，三年？每次我们最近聊天，都有这种……我不知道。这种犹豫。就像你在读一个你不再相信的剧本。"

改写后："听着。我没有逼你。但你们在一起三年了，最近有这种……犹豫。在你的声音里。就像你在背诵一个你已经不再相信的节目的台词。"

使用的技巧：VS（"背诵一个你已经不再相信的节目的台词"）+ FR。你看，原文就像两个人在茶话会上聊天，改写后有了冲突，有了情绪的张力，每个词都像是精心挑选过的。

约束与边界：不能乱来

这个技能应用了护栏：意义保留，改写必须说完全一样的事情；自然整合，新句子必须与周围文字流畅衔接；迭代上限，每章最多3次改写循环。目标是多样性，不是混淆。一个技术上困惑度更高但听起来强制的改写 defeats the purpose。

这些约束特别重要，因为改写很容易走火入魔。为了高困惑度而高困惑度，结果可能是晦涩难懂的文字，读者读完一头雾水。所以必须在多样性和可读性之间找平衡，既要避免平淡，又要保证流畅。意义保留是最基本的底线，你不能为了花哨而改变原意。自然整合确保改写后的句子不会突兀，像是从另一本书里抄来的。迭代上限防止无限循环，节省时间和成本。

结果：从流水线到艺术品

经过完整的流程（智能体、审核员、困惑度改进器），你得到了有趣的东西：圣经被强制执行，文字有了质感。多变的句子节奏，不可预测的词选择，它不再滑向统计平均值。这"无法检测"吗，可能不是。ZeroGPT这样的AI检测器经常在最终文字上返回"可能是人类写的"，但这是增加多样性的副作用，不是目标。检测器标记的是困惑度门测量的东西：可预测模式（它们可能还标记这个框架没实现的其他迹象）。

但真正的指标是：写出不感觉平淡的文字。而用这套框架写作时，确实有一些惊喜。你看，AI写作最大的问题就是平庸，像是从一个巨大的数据库里取平均值。但这套系统通过多重审核和困惑度门，强迫文字走出舒适区，去尝试那些不那么 obvious 的表达。结果就是有质感、有惊喜、有生命力的文字。

这套系统的价值不在于骗过AI检测器，而在于提升写作质量。它让AI生成的文字从"能读"变成"想读"，从"信息传递"变成"阅读享受"。这才是技术的正确用法，不是替代人类创造力，而是增强它，让创作者能专注于更高层次的创意决策，而把繁琐的 consistency 检查和风格打磨交给机器。

未来展望：这套系统还能怎么玩

这个框架是MIT许可证，在GitHub上开源，欢迎贡献。点击标题

Thomas正在探索几个方向：类型适配，改进圣经模板，针对特定类型（惊悚、科幻模式等）的 specifics；额外诊断信号，词频分析、句子节奏指标（突发性、Fano因子）和风格指纹；改写技巧库，记录超过当前九种的更多技巧，每种类型都有示例。

类型适配特别有意思，不同类型的书有不同的节奏和风格。惊悚小说需要短句、快节奏、悬念感；科幻小说需要 world-building、技术细节、未来感；言情小说需要情感细腻、心理描写、对话推进。如果能针对每种类型优化圣经模板和审核标准，这套系统的适用范围会大大扩展。

额外诊断信号能让质检更精细。词频分析可以抓过度重复，句子节奏指标可以量化"音乐性"，风格指纹可以确保整本书风格统一。这些工具结合起来，能构建一个更全面的质量评估体系。

改写技巧库的扩展空间也很大。现在的九种技巧主要关注句子和段落层面，还可以加入场景层面的技巧、叙事结构的技巧、人物发展的技巧。每种类型都有自己最管用的技巧，建立一个丰富的技巧库，能让改写器有更多武器可用。

结语：给AI写作装上方向盘和质检仪

Claude Book这套框架最牛的地方在于，它没有试图让AI替代人类作家，而是给AI装上了方向盘和质检仪。你知道AI开车有多猛吗，油门踩到底，但方向感为零，开着开着就撞墙了。这套系统就是那个导航+刹车+安全气囊的组合，让AI能安全地飙车。

从工程角度看，这套系统的模块化设计特别值得学习。每个智能体职责单一，通过文件系统交换信息，协调器负责调度。这种设计让系统容易扩展，你可以加新的审核员，换不同的模型，调整阈值，而不需要重写整个系统。从创意写作角度看，它解决了一个真问题：如何在保持AI生产力的同时，保证质量和一致性。

最后，这套系统开源了，MIT许可证，意味着你可以随便用、随便改、甚至拿去做商业项目。Thomas还邀请大家如果用这套系统写了东西，告诉他一声。这种开放的态度特别棒，技术进步需要社区的力量，一个人的智慧有限，一群人的智慧无限。

所以如果你也在用AI写小说，或者想试试，不妨看看这套框架。它可能不适合所有人，毕竟搭建起来需要一些技术背景，但它的思路，那些关于一致性管理、质量控制、风格保持的思考，对任何用AI辅助写作的人都有启发。记住，工具是死的，人是活的，最好的AI写作工具，永远是那个懂得如何使用它的人类大脑。

Claude Book多智能体小说框架用困惑度质检门根治AI写作平淡病让文字重获质感

Claude Book：一个用Claude Code搭建的多智能体小说写作框架

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道