Claude Book:一个用Claude Code搭建的多智能体小说写作框架


Claude Book是一个用Claude Code搭建的多智能体小说写作框架,专门解决AI写小说的两大硬伤:写着写着就忘了前面设定的人物性格和时间线,以及文字越来越像流水线产品缺乏人味儿。

整个系统像个精密的小说工厂,有专门负责写大纲的规划师、有负责写正文的写手、还有用本地困惑度检测来揪出那些太平淡句子的质检员,以及专门检查风格、人物、连续性的审核员。

所有智能体各司其职,通过一个中央协调器来调度,配合一本永远不变的设定圣经和实时更新的状态档案,最终产出一本18章的完整法语小说和一篇3000词的英语章节作为概念验证。

最狠的是那个困惑度门,用Ministral 8B模型在本地计算每个句子的困惑度,低于22的就标记为太平淡,然后用九种改写技巧给它注入人味儿,比如口语化采样、碎片化、人物声音、罕见词汇、句法倒装、感官细节、打破节奏、颠覆陈词滥调和叙事省略。整套系统MIT开源,目标是写出有质感不滑向统计平均值的文字。

开场暴击:AI写小说到底出了啥问题

咱们今天聊个猛料,一个法国老哥搞出来的Claude Book框架,这玩意儿简直就是给AI写小说装上了导航系统和质检流水线。你知道现在这些大语言模型写字有多猛吗,你让它写,它能给你哗哗哗产出一大堆,比打字机成精还快。但问题也随之而来,而且这问题特别膈应人,就像你吃火锅吃到最后发现锅底里有只苍蝇,前面吃得再爽这时候也全毁了。第一个问题叫连贯性漂移,听着挺学术,其实就是写着写着就忘了自己前面写了啥。人物性格说变就变,时间线乱成一锅粥,伏笔埋了后面根本不提,就像你追剧追到第十五集发现主角突然换人了,编剧还一脸无辜地说"啊?前面有这个人吗?"。

第二个问题更狠,叫AI斜坡,这名字起得就很有画面感,像滑雪一样一路向下出溜。AI生成的文字会不自觉地滑向可预测的模式,走那条被踩烂了的套路。每个句子都选最保险的路,没有惊喜,没有摩擦,就像喝白开水,解渴但毫无滋味。这种文字太平滑了,平滑到你读完一页脑子里啥也没留下,就像你刷短视频刷了两小时,放下手机发现自己刚才看了个寂寞。

这位叫Thomas Houssin的老哥就看不下去了,决定动手解决这个问题,于是Claude Book诞生了,一个用Claude Code当指挥中心的写作系统,带着质量门和一致性检查,甚至还有一个基于本地困惑度的质量门,专门抓那些太平淡的句子。

架构揭秘:四个智能体一台戏

这套系统的架构设计得跟交响乐团似的,有个总指挥站在中间挥棒子,下面四个乐手各司其职。最上面那个大框框就是协调器,Claude Code的主上下文,负责统筹一切,像个项目经理一样盯着进度。然后下面分出四个专门的智能体,每个都只干一件事,把自己那块活儿干到极致。第一个叫规划师,用的是Opus模型,负责写章节大纲,把故事拆成一个个节拍,就像导演给演员讲戏,这场戏你要干啥,情绪怎么递进,哪里该紧张哪里该放松,全给你安排得明明白白。

第二个是写手,也是Opus,负责把大纲变成正文,从节拍扩展成完整的章节,写在草稿文件夹里。这哥们儿是产量担当,但产量大不代表质量好,所以后面跟着质检员。第三个叫困惑度门,用的是Ministral 8B模型,在本地跑,专门检测那些太平淡的句子。它不看语法对不对,只看这个句子是不是走的最 predictable 的那条路,如果是,就标记出来让 rewriter 去改。第四个是审核员,用的是Sonnet模型,分成三个小组:风格审核、人物审核、连续性审核。风格审核盯着圣经里的设定,人物审核确保每个人物的说话方式和行为逻辑跟设定一致,连续性审核检查时间线和物品状态有没有穿帮。

每个智能体都有严格的边界,审核员只负责挑毛病,不亲自下场写,写的事儿归协调器和写手。这种分工特别像工厂流水线,一个人拧螺丝,一个人质检,一个人打包,效率比一个人全干高多了。而且因为每个智能体只专注一件事,它能在这件事上做到很细,不像一个大模型又要写又要审,最后两头不讨好。

文件系统:四个文件夹管全书

在具体干活之前,这套框架先把文件系统整得明明白白,分成四个主要文件夹:bible、state、story、timeline。圣经文件夹放的是结构化参考资料,一旦开始生成就永远不变,就像建筑图纸,工人可以按图施工,但不能擅自改图纸。状态文件夹追踪故事的当前情况,人物在哪儿、身上带了啥、知道什么秘密、跟谁关系好,这些信息实时更新。故事文件夹放的是实际的故事内容,包括简介、大纲和章节正文。时间线文件夹放详细的时间线,每写完一章就更新一次。

这种设计特别聪明,把静态设定和动态状态分开管理。圣经是常量,state是变量,story是输出,timeline是索引。四个文件夹各司其职,互相之间通过协调器来同步。而且state文件夹用了一个叫symlink的符号链接技巧,current文件夹永远指向最新一章的状态,这样每个智能体都只需要读state/current/,不用管上一章到底是第几章。写第15章的时候,模型能精确知道前14章发生了啥,而不用加载10万token的上下文,省内存又省算力。

这种设计思路特别值得学习,它把复杂的上下文管理问题转化成了简单的文件系统操作。你想啊,如果每次写新章节都要把前面所有内容塞给模型,那写到第50章的时候上下文窗口得多大,成本得多高。但现在只需要加载当前状态,一本几百页的小说也能轻松管理,这就是工程思维的胜利。

圣经:写作的宪法

在开始写之前,你得先整一本圣经,这是整个框架的根基。圣经里定义了风格约束和禁止事项,详细描述了每个人物的性格、说话方式、口头禅、对话示例等等。这些东西决定了人物有没有个性,文字有没有质感。一本不完整或者质量差的圣经,产出的文字就会无聊透顶,就像做菜没放盐,能吃但毫无滋味。

Thomas还搞了两个技能来帮你做圣经。第一个是书籍分析器,能从源书里自动提取这些规则。它给你量化的风格数据:平均句长、对话标签频率、词汇限制、明确禁止的元素。比如你要模仿Enid Blyton的《 Famous Five 》系列,分析器能告诉你这类书平均句长多少,多久出现一次"他说""她说",哪些词是绝对不能用的。第二个技能是圣经合并器,能把几本同类书的分析结果合并成一本综合圣经,取各家之长。

圣经的重要性怎么强调都不为过,它是整个系统的宪法,所有智能体都要遵守。风格审核员拿着圣经来检查正文,人物审核员拿着圣经来核对人物行为,写手写的时候也要参考圣经来保证一致性。没有圣经,整个系统就是无头苍蝇,各写各的,最后拼凑出一本四不像。

状态管理:连贯性的守护神

状态管理是这套系统保持连贯性的关键。状态追踪故事的当前情况:人物位置、物品清单、已知信息、人物关系。每验证完一章,状态更新器智能体就会提取变化,创建一个新的版本快照。文件夹结构用了一个symlink模式,current文件夹永远指向最新一章的状态,chapter-01、chapter-02这些文件夹存档每一章结束后的状态。

这个设计的好处太明显了。当你写第15章的时候,模型能精确访问第14章结束时发生了什么,而不用加载前14章的全部文本。这意味着你可以写超长篇小说而不用担心上下文窗口爆炸。而且因为状态是结构化的,比自然语言更容易检查一致性。比如上一章结尾主角在船上,下一章开头突然在山上,状态审核员一眼就能看出来,而如果是读全文,模型可能会忽略这个细节。

状态文件通常包括几个部分:当前场景、在场人物、人物位置、物品清单、已知信息、人物关系状态。这些信息以结构化格式存储,智能体可以直接读取和更新。更新器智能体的工作就是读新章节,提取变化,生成新的状态文件。这个过程自动化了,减少了人为错误。

工作流程:一章是怎么诞生的

咱们来看看具体一章是怎么写出来的,这个流程设计得特别严谨。首先,当新章节进入规划模式时,提示词很简单:写一章,按流程走,退出规划模式。然后规划师开始写章节节拍,注意,节拍的质量完全取决于你的简介,简介越详细,节拍就越好。如果节拍不够细,写手就会自己发挥,往里面填各种东西,结果可能跟你的预期完全不符。

节拍写好后,写手智能体根据节拍生成完整章节,写在草稿文件夹里。然后困惑度技能检查并标记需要重写的句子。接着三个审核员并行运行,检查风格、人物、连续性。如果全部通过,章节就移到story文件夹,状态更新器更新当前状态。如果有问题,就退回修改,直到通过为止。

每个审核员都有严格的边界,它们只负责验证,不亲自写。协调器和写手才是负责写的,协调器在调用困惑度技能时写,写手在需要重写章节时写。这种分工避免了角色混淆,确保每个环节都有专人负责。而且并行审核提高了效率,三个审核员同时工作,比串行检查快多了。

智能体实战:真实案例

咱们来看几个真实的例子,看看这些审核员是怎么工作的。风格审核员负责维持基调,圣经里明确列出了禁止元素。比如在《 Famous Five 》这种儿童读物里,禁止事项包括"角色死亡(即使是反派也是被捕而不是被杀)"和" graphic violence 或详细描写受伤"。

有一次章节节拍里写:"看守人Le Goff先生死于一场可怕的风暴。'据说他在半夜从楼梯上摔下来,当时海浪正拍打着岩石。两天后才发现他的尸体。'"风格审核员立刻标记:明确的死亡描写、发现尸体,这对目标读者群来说太黑暗了。改写的版本变成:"看守人Le Goff先生在那年的风暴中失踪了。一个可怕的夜晚,海浪像房子一样高。那个可怜的人再也没人见过。"用"失踪"和"再也没人见过"替代了"死亡"和"尸体",保持了神秘感和情感张力,但没有 graphic 细节,更符合Blyton的风格。

人物审核员和连续性审核员的逻辑很简单:检查写的内容是否与圣经和状态文件一致。状态文件记录了场景、物品和知识,这在这里特别有用。比如上一章结尾是漆黑的夜晚没有月亮,下一章开头月光照亮了风景,这种错误就会被标记。甚至有一次审核员发现了简介里的一个错误,这个错误正在造成情节不一致。

风格检查:代码也能干的事

风格检查器的思路也一样,检查与圣经中风格部分的一致性。Thomas还加了一个简单的Python脚本style_checker.py,计算一些不需要语言模型就能搞定的东西。AI信号词,那些LLM过度使用的词:"delve"、"showcasing"、"boasts"、"underscores"、"intricate"、"realm"、"groundbreaking"。这些词就像AI的口头禅,一看就知道是机器写的。

对话比例计算引用文本的词数比例,看看对话占比多少。禁止的对话标签,如果你想限制某些标签的使用。重复分析,统计每页的词频,标记当一个词在250词内出现超过3次的情况。引号风格,抓法语引号《 》在英语写作中的使用。这些都是便宜检查,不需要GPU,脚本生成报告供风格审核员使用, alongside 语言模型做的更智能的检查(视角一致性、时态一致性等)。

这种混合方法特别聪明,简单的规则检查用代码,复杂的语义检查用LLM,既省钱又高效。代码检查是确定性的,不会漏掉明显的模式,LLM检查是理解性的,能抓住更微妙的风格问题。两者结合,覆盖面比单独用一种要全面得多。

困惑度门:给文字注入人味儿

现在来到最有趣的部分,困惑度门,这里需要精确说明我们在测量什么。困惑度测量语言模型对文本有多"惊讶"。低困惑度意味着模型对下一个token很有信心,文本走了最可预测的路。高困惑度意味着文本更难预测。

重要提示:这不是AI检测器,而是一个诊断"无聊"文本的工具。AI生成的文本有个现象叫AI斜坡,生成的文字倾向于滑向统计平均值。每个句子都走阻力最小的路,没有错误,但也没有摩擦。结果是文字太"平滑":可预测的措辞、统一的节奏、缺乏惊喜的词选择。

但人类文本也可能有低困惑度,短对话、常见表达、简单的陈述句,这些天生就是可预测的,不管谁写的。所以我们真正想检测的不是"AI vs 人类",而是"平淡文本 vs 有质感文本"。目标是增加多样性和质感,让文字感觉有生命力。

为此,Thomas搭建了一个本地分析流程,用最新的Ministral 8B来测量句子级困惑度。脚本应用多个诊断标准:低困惑度(PPL小于22)捕捉走可预测路的单个句子;低标准差窗口(14个句子的σ小于14)捕捉困惑度统一的段落;相邻低块(4个以上连续句子PPL小于30)捕捉没有摩擦的扩展段落;低PPL密度(窗口中超过30%低于PPL 25)捕捉累积的"无聊"信号;禁用词(精确匹配)捕捉AI信号词汇。

每个标准捕捉AI斜坡的不同症状,组合信号(一个句子本身可预测且位于低方差窗口中)是平淡文本的更强指标。根据你写或分析的内容,你可能需要更新这些值(这些是基于AI生成文本和英语小说得到的)。完整脚本在GitHub上。

困惑度的陷阱与技巧

这些阈值是诊断信号,不是判决书。工具标记可能滑向可预测模式的句子,但很多会是假阳性:短对话交换("'是的,'她说")、常见表达和习语、简单的动作描述、技术或事实陈述。目标不是重写所有东西,而是达到一个目标(比如20%或30%),重写标记最多的部分。不是每个标记的句子都需要重写,只有那些在语境中感觉平淡的才需要。

当困惑度门标记可疑句子时,困惑度改进技能用记录好的技巧重写它们:口语化采样(VS)、碎片化(FR)、人物声音(CV)、罕见词汇(RV)、句法倒装(SI)、感官细节(SD)、打破节奏(BR)、陈词滥调颠覆(CS)、叙事省略(NE)。

关于口语化采样:VS是一种提示技巧,来自一篇论文,解决"模式崩溃"问题,即对齐模型倾向于产生重复、同质文本。两种方法:让模型生成多个替代措辞("给我5种说法"),从基础模型恢复多样性;或者直接请求从概率分布的尾部输出("从尾部采样,概率小于0.10"),强制使用不那么典型的替代方案。

在根据节拍写作时不容易用这种方法,但在重写无聊句子时可以。困惑度改进技能用第二种方法:它要求模型用故意不那么可预测的措辞重写标记的句子。

改写实战:从白开水到二锅头

来看几个例子,这些来自一个英语实验:Sonnet 4.5根据简短简介一次性生成的短篇故事。这些是Opus 4.5在改写后写的报告摘录。

第一个例子,标记原因:相邻低困惑度块。原文:"一对夫妇带着一只金毛幼犬走过。一个穿Lululemon紧身裤的女人慢跑过去,戴着AirPods,表情平静,不知道什么播客让她相信一切都会好起来的。海洋空气正在渗入,那种特别的寒意让你后悔没带夹克,尽管一小时前还是70度。"

改写后:"一只金毛幼犬拉着主人走过,全是舌头和混乱。在他们后面,一个穿Lululemon的女人像广告里的女人一样慢跑,戴着AirPods,表情刻意,可能在吸收什么关于显化丰盛的播客。然后海洋层宣布了它的存在,那种 creeping 的海湾寒意惩罚了所有信任70度下午的人。"

使用的技巧:VS("全是舌头和混乱"、"像广告里的女人"、"显化丰盛"、"惩罚了所有信任的")+ SD + RV("海洋层宣布了它的存在")。你看,原来的文字就像白开水,读完就忘,改写后有了画面感,有了情绪,有了让人记住的细节。

第二个例子是对话。原文:"Sarah拿着两个塑料杯回来,侧面已经凝结水珠。'好吧,'她说,带着开始审讯的气场坐回椅子。'那么。跟我说说这些梦。'[...]'这意味着它们要么是关于工作的,那会很无聊你也会直接告诉我,要么是关于Tom的,那意味着很有趣你一直在避免告诉我。'"

改写后:"Sarah放下两个塑料杯,凝结的水珠已经顺着侧面流下。她像打开手术刀一样刻意地安排自己在椅子里的姿势。'那么。这些梦。'[...]'这意味着:一,工作梦,无聊,你会说。或者二,Tom梦。有趣。这就是你消失的原因。'"

使用的技巧:VS("凝结的水珠已经顺着侧面流下"、"打开手术刀")+ FR + CV(紧凑的对话节奏)。原来的对话太啰嗦了,像两个人在念台词,改写后有了人物个性,有了紧张感,每句话都像在刀刃上走。

第三个例子。原文:"听着,我不是想逼你。我只是说,你们在一起多久了,三年?每次我们最近聊天,都有这种……我不知道。这种犹豫。就像你在读一个你不再相信的剧本。"

改写后:"听着。我没有逼你。但你们在一起三年了,最近有这种……犹豫。在你的声音里。就像你在背诵一个你已经不再相信的节目的台词。"

使用的技巧:VS("背诵一个你已经不再相信的节目的台词")+ FR。你看,原文就像两个人在茶话会上聊天,改写后有了冲突,有了情绪的张力,每个词都像是精心挑选过的。

约束与边界:不能乱来

这个技能应用了护栏:意义保留,改写必须说完全一样的事情;自然整合,新句子必须与周围文字流畅衔接;迭代上限,每章最多3次改写循环。目标是多样性,不是混淆。一个技术上困惑度更高但听起来强制的改写 defeats the purpose。

这些约束特别重要,因为改写很容易走火入魔。为了高困惑度而高困惑度,结果可能是晦涩难懂的文字,读者读完一头雾水。所以必须在多样性和可读性之间找平衡,既要避免平淡,又要保证流畅。意义保留是最基本的底线,你不能为了花哨而改变原意。自然整合确保改写后的句子不会突兀,像是从另一本书里抄来的。迭代上限防止无限循环,节省时间和成本。

结果:从流水线到艺术品

经过完整的流程(智能体、审核员、困惑度改进器),你得到了有趣的东西:圣经被强制执行,文字有了质感。多变的句子节奏,不可预测的词选择,它不再滑向统计平均值。这"无法检测"吗,可能不是。ZeroGPT这样的AI检测器经常在最终文字上返回"可能是人类写的",但这是增加多样性的副作用,不是目标。检测器标记的是困惑度门测量的东西:可预测模式(它们可能还标记这个框架没实现的其他迹象)。

但真正的指标是:写出不感觉平淡的文字。而用这套框架写作时,确实有一些惊喜。你看,AI写作最大的问题就是平庸,像是从一个巨大的数据库里取平均值。但这套系统通过多重审核和困惑度门,强迫文字走出舒适区,去尝试那些不那么 obvious 的表达。结果就是有质感、有惊喜、有生命力的文字。

这套系统的价值不在于骗过AI检测器,而在于提升写作质量。它让AI生成的文字从"能读"变成"想读",从"信息传递"变成"阅读享受"。这才是技术的正确用法,不是替代人类创造力,而是增强它,让创作者能专注于更高层次的创意决策,而把繁琐的 consistency 检查和风格打磨交给机器。

未来展望:这套系统还能怎么玩

这个框架是MIT许可证,在GitHub上开源,欢迎贡献。点击标题

Thomas正在探索几个方向:类型适配,改进圣经模板,针对特定类型(惊悚、科幻模式等)的 specifics;额外诊断信号,词频分析、句子节奏指标(突发性、Fano因子)和风格指纹;改写技巧库,记录超过当前九种的更多技巧,每种类型都有示例。

类型适配特别有意思,不同类型的书有不同的节奏和风格。惊悚小说需要短句、快节奏、悬念感;科幻小说需要 world-building、技术细节、未来感;言情小说需要情感细腻、心理描写、对话推进。如果能针对每种类型优化圣经模板和审核标准,这套系统的适用范围会大大扩展。

额外诊断信号能让质检更精细。词频分析可以抓过度重复,句子节奏指标可以量化"音乐性",风格指纹可以确保整本书风格统一。这些工具结合起来,能构建一个更全面的质量评估体系。

改写技巧库的扩展空间也很大。现在的九种技巧主要关注句子和段落层面,还可以加入场景层面的技巧、叙事结构的技巧、人物发展的技巧。每种类型都有自己最管用的技巧,建立一个丰富的技巧库,能让改写器有更多武器可用。

结语:给AI写作装上方向盘和质检仪

Claude Book这套框架最牛的地方在于,它没有试图让AI替代人类作家,而是给AI装上了方向盘和质检仪。你知道AI开车有多猛吗,油门踩到底,但方向感为零,开着开着就撞墙了。这套系统就是那个导航+刹车+安全气囊的组合,让AI能安全地飙车。

从工程角度看,这套系统的模块化设计特别值得学习。每个智能体职责单一,通过文件系统交换信息,协调器负责调度。这种设计让系统容易扩展,你可以加新的审核员,换不同的模型,调整阈值,而不需要重写整个系统。从创意写作角度看,它解决了一个真问题:如何在保持AI生产力的同时,保证质量和一致性。

最后,这套系统开源了,MIT许可证,意味着你可以随便用、随便改、甚至拿去做商业项目。Thomas还邀请大家如果用这套系统写了东西,告诉他一声。这种开放的态度特别棒,技术进步需要社区的力量,一个人的智慧有限,一群人的智慧无限。

所以如果你也在用AI写小说,或者想试试,不妨看看这套框架。它可能不适合所有人,毕竟搭建起来需要一些技术背景,但它的思路,那些关于一致性管理、质量控制、风格保持的思考,对任何用AI辅助写作的人都有启发。记住,工具是死的,人是活的,最好的AI写作工具,永远是那个懂得如何使用它的人类大脑。

Claude Book多智能体小说框架用困惑度质检门根治AI写作平淡病让文字重获质感