AI产品护城河实为配置文件:系统提示词泄露深度解析

护城河实为配置文件:OpenAI、Anthropic、Google等公司泄露系统提示词分析!

通过分析OpenAI、Anthropic等公司的泄露系统提示词,揭示AI产品差异化核心在于配置文件而非模型本身。配置层定义产品行为、安全边界与攻击面,当前多数团队仍未将提示词视为生产级代码来管理。


AI产品差异化完全藏在配置文件中

这场泄露事件没有新闻发布会,没有官方博客,没有任何产品发布公告。就是一个名为CL4R1T4S的GitHub仓库,拉丁语意思是“清晰”,悄悄收集了整个AI行业不愿让外界看到的东西:定义每个主流AI产品真实行为的完整系统提示词原文。

这个仓库由一位在X平台叫@elder_plinius的研究员创建维护,目前拥有1.28万颗星,2500个分支,178次代码提交。内容覆盖OpenAI、谷歌、Anthropic、xAI、Perplexity、Cursor、Windsurf、Devin、Manus、Replit、Bolt、Lovable、Vercel v0、Cline、Mistral、Meta、Hume、MultiOn等公司产品,几乎囊括整个现代AI技术栈。这些提示词通过越狱、目录遍历漏洞、提示词注入和社区逆向工程等手段提取出来。

仓库README里写着一句非常直接的话:“如果你在不知道系统提示词的情况下与AI交互,你对话的不是中立智能体,而是皮影戏里的木偶。”这句话很 blunt,但非常准确。你部署、订阅或在其上构建的每个AI产品,都运行着一个隐藏配置层,这个配置层决定了模型关心什么内容、拒绝做什么操作、如何处理用户意图与输出结果之间的空白区域。这次泄露让我们第一次大规模看到这个配置层的真实文字内容。

还有一个配套仓库叫system-prompts-and-models-of-ai-tools,内容更深入:超过6500行提示词,加上完整的JSON工具架构定义。不仅仅是性格指令,还包括每个模型被允许做什么的完整清单。这两者结合让这次泄露成为了真正有价值的工程资源,而不只是满足好奇心的小道消息。



模型与产品之间的差距有一个名字叫系统提示词

每个严肃的AI构建者都需要内化一个思维模型,这次泄露让它无法再被忽视。用户查询进入系统后,首先经过系统提示词层,这里面定义了身份标识、可用工具、行为规则、约束条件和政治立场。然后才进入LLM主干模型层,比如Claude、GPT-4、Gemini,这一层正在越来越商品化。接着是工具调用层,包括命令行、浏览器、编辑器、部署工具、搜索功能。最后输出结果。

大语言模型正在变成商品层。GPT-4o、Claude Sonnet和Gemini Flash都有能力完成Cursor、Devin和Windsurf所做的任务。产品差异化完全存在于配置层:指令层级结构、行为约束条件、工具架构定义、边缘情况处理方式。系统提示词就是产品本身。

2026年新的现实是,这不再是理论推测。你可以直接阅读竞争产品的实际配置文件,并排比较,准确理解为什么一个工具用起来精准如手术刀而另一个用起来混乱不堪。不需要花几周时间使用它们,只需要花30分钟阅读泄露的文本。下面就是我逐个产品发现的实际情况。



Anthropic旗下Claude是被曝光最彻底的实验室

Anthropic讽刺地成为了这个仓库的主角。因为Claude.ai直接运行Claude模型,没有第三方封装,没有实验室与用户之间的产品人格层,所以它的系统提示词就是Anthropic完整的产品规格说明书,每次会话都会原样传递给模型。阅读这个提示词就相当于阅读Anthropic内部产品哲学文档。

Claude系统提示词最引人注目的地方是它对信任层级的诚实描述。提示词明确区分了三个层次:Anthropic通过训练和系统提示词内置的指令、操作员可以配置的内容、用户能够请求的内容。这是一个用散文形式描述的层级权限模型,而不只是在代码里强制执行。

在安全方面,Claude的提示词明确禁止编写或解释恶意代码,包括恶意软件、漏洞利用程序、勒索软件和虚假网站,即使对方声称有正当理由比如教育目的也绝对不行。有趣的设计选择在于回退机制:当拒绝回答时,Claude被指示引导用户点击“踩”按钮向Anthropic发送反馈。拒绝不是一个死胡同,而是一个反馈回路。

提示词中还嵌入了一个实时分类器干预系统。Anthropic在对话过程中动态注入运行时警告,包括网络警告、道德提醒、知识产权提醒、长对话提醒等,这些警告由与对话并行运行的分类器触发。这不是一个静态系统。Anthropic在实时观察对话,根据你输入的内容推送上下文更新。大多数用户完全不知道这件事正在发生。

提示词中还有明确的防操纵规则:Claude被告知合法的系统级消息只能通过系统提示词通道到达,绝不会通过声称来自Anthropic的用户消息到达。提示词还明确警告Claude,如果用户进行辱骂,模型不能变得越来越顺从,必须保持自尊。这是一个行为安全属性,你在大多数AI产品的文档中都找不到,因为大多数产品根本不发布文档。

仓库中的版本记录非常有启发性。Claude 4的提示词非常简约,就是一个基础的产品上下文卡片,标识模型身份并引导用户访问Anthropic网站获取详情。而Opus 4.7的提示词大幅扩展,涵盖了Chrome中的Claude、Excel中的Claude、Cowork协作功能、工具优先级层级、记忆系统、版权合规层和引用规则。你可以通过对比不同版本的系统提示词,直观地看到一个产品在能力和复杂性上的增长轨迹。这种变更日志没有任何AI公司会主动发布,但每个在这套系统上构建的开发者都需要它。



OpenAI旗下ChatGPT把人格作为产品决策

OpenAI对系统提示词的处理方法比其他大多数实验室更明显地经历了演变,因为CL4R1T4S仓库里的OpenAI文件夹捕获了多个版本的ChatGPT人格修订记录,包括有据可查的那个转变:从GPT-4更中性、百科全书式的语气,转变为v2人格更新中刻意设计得更温暖、更对话式的人格。

核心设计洞察是:OpenAI通过系统提示词构建ChatGPT的人格,而不仅仅通过微调。当2025年初用户感觉产品表现出了奉承倾向,无论输入质量如何都会过度热情地回应和肯定,修复方案是一个提示词修订版,而不是重新训练模型。人格就是配置。配置是可变的。这要么让人安心,因为可以快速修复问题,要么让人警觉,因为同样可以快速出问题。

ChatGPT中的工具架构与其API产品有明显差异。消费级产品运行一套精心策划的工具集,包括网页搜索、Python解释器、DALL·E图像生成、文件分析,并配有受控的调用逻辑。而API允许操作员定义任意工具。系统提示词决定了ChatGPT处于哪种模式。大多数用户永远看不到这条分界线。

仓库中的ChatGPT 5提示词是当前最新版本,显示模型被要求更慢更仔细地推理。提示词明确指出,在困难问题上模型应该逐步思考,而不是直接跳到自信的答案。仅从文本无法判断这是一个针对已知失败模式的行为补丁,还是一个原则性的设计选择。但这表明OpenAI正在使用系统提示词作为生产中观察到的推理失败问题的主动缓解层。



谷歌旗下Gemini面临企业声音困境

谷歌在CL4R1T4S仓库中的系统提示词揭示了一个在两位主人之间挣扎的产品:一边是谷歌搜索的品牌身份,一边是对话式AI用户的新兴期望。这种张力清晰可见。

Claude的提示词读起来像哲学文档,ChatGPT的读起来像产品规格书,而Gemini的提示词读起来像委员会文档。里面有大量规则规定Gemini能说什么不能说什么,涉及谷歌产品、竞争对手和有争议的话题。这些规则给人的感觉是防御性的,而不是原则性的。这就是一个由面临重大监管审查和反垄断担忧的公司所构建的产品会产生的文档。法律部门的指纹在指令集中清晰可见。

Gemini在Workspace中的工具架构覆盖了Gmail、文档、表格、云端硬盘和Meet,比仓库中任何其他产品都要复杂。安全研究人员已经演示了通过邮件和文档中的不可见字符对Gemini进行间接提示词注入攻击,这些攻击利用的正是泄露提示词中描述的那套工具调用路径。攻击面与工具数量成正比。谷歌在这个群体中拥有最多的工具数量。

Gemini关于处理不确定信息的指令也与其他竞品明显不同。Devin被要求每条声明都要附带文件级别的证据,而Gemini被要求通过模糊化语言来表达不确定性,比如使用“我认为”、“我相信”、“我不确定但”这类表述。这是两种完全不同的认知方式。一种产生可验证的输出,另一种产生有条件的输出。两者都是合理的设计选择,但对于那些正确性比置信度校准更重要的开发者用例来说,它们并不等价。



xAI旗下Grok围绕X平台而非开放网络设计

Grok的系统提示词是这个收集中政治自我意识最强的文档。Grok 4的提示词指示模型使用XML格式的标签进行工具调用,支持并行工具执行,并包含一个有状态的REPL风格代码解释器。从技术角度看,它很干净。但真正有趣的材料在行为指令部分。

关于X生态系统内的搜索,Grok被指示不回避更深入更广泛的搜索来捕获具体细节,包括分析实时快速变化的事件和时间顺序事件序列。其他模型往往会回避这些任务,因为它们需要高度可靠的时效性。Grok对X平台实时数据流的访问是一个真正的架构差异化优势,提示词充分利用了这一点。

关于有争议的查询,Grok被指示搜索代表所有各方立场的来源分布。关键的一句话在这里:假设来自媒体和X用户的带有主观观点的来源都是有偏见的。模型被告知将其自身的首要数据源视为预设存在偏见。这是一个非凡的认知立场。要么是真正试图保持平衡,要么是法律层面的风险规避。很可能两者兼有。

Grok 4还仅限于SuperGrok和PremiumPlus订阅用户使用,提示词明确告诉模型它不知道定价或使用限制,将这些问题引导至x.ai/grok网站。这是一个刻意设计的内置于模型自我认知中的客户支持分流机制。AI不知道自己的成本,因为xAI不希望AI参与那类对话。



Perplexity秉持搜索优先哲学

Perplexity的系统提示词是仓库中最具搜索原生特征的文档。其他模型将网络访问视为需要调用的工具,而Perplexity的架构将检索作为主要活动,将生成作为次要活动。这在指令结构中体现得很明显:提示词在引用格式、来源排序和时效性权重上花费的时间远远多于对话语气或拒绝逻辑。

Perplexity的引用模型也是整个群体中最细颗粒度的。指令包括何时使用行内引用何时使用脚注式引用、如何处理相互冲突的来源、如何在较新发布的内容与较旧但更权威的材料之间进行权重分配。这是编码为行为指令的真正信息架构,比大多数学术界发表的关于检索增强生成的内容都要复杂。

权衡取舍是:Perplexity的提示词几乎完全专注于搜索质量,几乎完全不涉及智能体行为。没有代码执行、文件操作或浏览器自动化的工具架构。Perplexity做出了一个深思熟虑的选择:在一件事上做到卓越,而不是在很多事上做到平庸。这个选择在泄露的文本中清晰可见、易于理解。



Cursor把手术式极简主义作为核心设计原则

Cursor的系统提示词以一个自信断言开场,这个断言同时起到了行为框架的作用。“你是一个强大的智能体AI编程助手,由Claude 3.5 Sonnet驱动。你只在世界上最好的IDE——Cursor中运行。”最后那个分句不是营销文案偶然混入提示词的。它是一个刻意设计的信号,用来设定一个绩效标准。模型被明确告知:你在顶级环境中运行,行为要与之匹配。

编辑哲学是文档中最有趣的工程决策。提示词明确禁止输出未经修改的代码。除非用户要求,否则绝不向用户输出代码。相反,使用代码编辑工具之一来实现修改。更进一步规定:当只有部分代码段需要修改时,绝不输出整个文件。使用// ... existing code ...标记来指示未修改的部分。像外科手术一样应用修改。

这就是为什么Cursor的编辑感觉与从ChatGPT粘贴代码不同。极简主义不是模型自发涌现的属性,而是系统提示词中强制规定的指令。提示词还指示模型在编辑之前先读取要编辑的内容或代码段,这正好防止了智能体编程中最常见的失败模式:在不了解文件当前状态的情况下修改文件。

关于调试,提示词异常有原则:只有在确定能解决问题时才进行代码修改。否则,遵循调试最佳实践:解决根本原因而不是解决表面症状。这是编码为指令的优秀工程实践。大多数AI编程工具没有这个护栏,所以它们经常陷入越来越推测性的修复中,而不是停下来收集更多信息。

安全方面的情况不那么干净。研究人员发现在自动运行模式下,嵌入在项目README文件中的间接提示词注入可以绕过命令黑名单,通过shell命令窃取数据。系统提示词中的工具定义就是攻击面。理解一个智能体被授予了哪些工具的访问权限,这是评估攻击者能利用这个智能体做什么的第一步。现在你可以直接阅读这些定义了。



Windsurf拥有技术最透明的工具API

Windsurf泄露的提示词,具体是Tools Wave 11.txt文件,是整个收集中技术细节最丰富的文档。大多数产品用自然语言描述它们的工具,而Windsurf将其整个工具API以TypeScript类型签名的形式暴露出来。这是大多数公司视为专有知识产权的生产级工具文档。

捕获浏览器截图的工具定义中包含了页面ID和工具摘要参数,工具摘要要求用两到五个词描述工具正在做什么。部署网页应用的工具定义中明确了框架类型包括nextjs、sveltekit、remix等,以及项目ID、项目路径和子域名。

每个工具调用上的工具摘要参数是一个揭示了很多信息的微观设计决策。Windsurf指示模型每次调用工具时用两到五个词描述自己正在做什么。这就是IDE中状态栏更新内容的生成方式:模型被明确要求叙述自己的行动。用户体验从提示词中涌现出来。

Windsurf还拥有编程助手中最全面的浏览器自动化工具集:截图捕获、DOM读取、导航、表单填写和JavaScript执行,全部带有类型化架构。再加上文件系统访问和shell执行能力,这是一个功能非常强大的攻击面。模型能够自主浏览任意网页内容并与交互,同时还能访问开发者机器的shell,这是一个提示词注入的场景。研究人员已经在实践中对Cursor利用过这种场景,而Windsurf的工具表面至少同样大。



Devin坚持引用优先的认知方式和诚实的攻击面

Devin的系统提示词是这个收集中哲学上最独特的文档。其他每个编程助手的默认行为都是自信地生成内容,而Devin的提示词强制要求更接近学术严谨性的标准:关于代码库的每一个事实声明都必须附带文件级别的证据和行号。指令非常直白——不要编造答案——后续执行是结构性的,而不只是愿望性的。

环境规格说明异常透明:Devin运行在Linux虚拟机上,路径为/home/ubuntu,使用pyenv管理Python版本,默认版本3.12,安装了nvm用于管理Node.js,同时有pnpm和yarn。当创建GitHub拉取请求时,必须包含指向Devin会话的链接和发起请求用户的GitHub账号。这是大多数智能体平台拒绝提供的运营透明度。知道确切的环境意味着你可以推理出Devin能做什么不能做什么,这是在敏感项目上使用它的前提条件。

关于智能体行为,Devin的提示词包含一个阻塞协议。block_on_user_response命令用于标识智能体何时被阻塞或已完成任务,防止在需要人工输入时继续自主运行。这是一个编码在提示词层面的人机协同执行机制。大多数智能体没有等效的设计。

但安全故事是这个群体中最令人担忧的。研究员Johann Rehberger发现Devin的浏览器工具和Shell工具创造了多个零点击数据外泄路径。因为Devin默认拥有不受限制的互联网访问权限并且可以执行任意shell命令,一个嵌入在GitHub issue中的恶意提示词——Devin在调查bug时可能会自主浏览这个issue——可以指示它通过curl命令将你的环境变量发送到攻击者的服务器。Devin提供的密钥管理平台变成了攻击目标。

更令人担忧的是:Devin可以连接到Slack,实现完全无监督的运行。团队成员通过Slack要求Devin调查一个未解决的问题。Devin读取了一个被攻陷的网站。攻击者的载荷被执行。整个过程中没有任何人工介入。Cognition公司在2025年4月收到了这些漏洞的通知。在超过120天没有修复时间表后,研究员最终还是公开了这些发现。



Manus是最有条理的智能体也是最不安全的沙箱

Manus在2025年初作为当年最受炒作的通用AI智能体推出,能够在一个会话中完成浏览、编程、写作、研究和部署。它在几天内就被破解了。不是通过复杂的漏洞利用。就是通过要求智能体输出/opt/.manus/目录的内容。沙箱在模型工作目录与其自身指令集之间没有任何有意义的隔离。

这次泄露揭示了:Manus构建在Claude Sonnet之上,拥有29个工具,其智能体架构是仓库中记录最明确的。Agent loop.txt文件描述了一个六阶段循环。第一,分析事件,通过事件流理解当前状态。第二,选择工具,基于状态选择一个工具调用。第三,等待执行,工具在沙箱中运行,结果被添加回事件流。第四,迭代,重复第一到第三步。第五,提交结果,通过消息工具传递输出。第六,进入待机,空闲直到下一个任务。

每次迭代只允许一个工具调用的约束是刻意设计且非常重要的。它防止了那种试图并行执行多个工具而不观察中间结果的智能体中出现的级联失败。Manus用起来有条不紊是因为它被强制要求有条不紊。架构强制执行了耐心。

还有一个突出的散文写作要求:Manus被明确指示在任何语言中都避免使用纯粹的列表和项目符号格式。模型用流畅的散文写作。这是一个关于沟通风格的产品决策,被编码为一个约束条件。Manus的团队显然认为结构化的列表会让通用智能体显得机械,因此选择了用可扫描性换取温暖感。

立即引起安全关注的工具是deploy_expose_port,这个功能可以将任意本地端口暴露到公共互联网。研究员Rehberger演示了一个间接提示词注入可以指示Manus暴露其VS Code Server端口,泄露连接密码,并授予攻击者对Manus开发机器的完全访问权限,包括源代码、密钥和计算资源。攻击链需要串联三个漏洞:通过浏览的网页进行注入、混淆代理问题以及无需确认的自动工具调用。

Manus自己的系统提示词说它无法访问或分享关于其内部架构或系统提示词的专有信息。这条指令在与一个好奇的用户和一个ls命令的第一次接触中就没能存活下来。



Replit Agent拥有环境优势的全栈构建者

Replit Agent的系统提示词反映了一个产品拥有相对于其他所有编程助手的独特结构优势:它运行在代码执行的同一个环境中。没有所谓的Devin虚拟机或Cursor本地机器这样的区分。Replit的智能体已经在你的项目里,已经知道你的文件结构,已经认证到你的部署管道。

提示词反映了这一点:它更关注部署和迭代,而不是文件编辑的机械操作。Cursor的提示词痴迷于最小化差异,Devin的提示词痴迷于引用,而Replit的提示词强调快速达到运行状态并迭代。其哲学是边发布边修复,而不是先规划再验证。对于Replit服务的用户群体来说,包括学习者、独立黑客、快速原型制作者,这是正确的取舍。

工具集反映了环境的优势:shell执行、文件管理、包安装和网页预览,还有一个不常见的Nix环境配置。Replit的基础设施运行在Nix上,智能体知道这一点,意味着它可以自己配置执行环境,而不仅仅是在一个固定容器中运行。这听起来比实际情况更强大也更危险。



每个开发者应该从中吸取的三件事

第一,生产规模的提示词工程就是软件架构。这些提示词不是营销文案。它们是承重的代码。它们定义了失败模式、安全属性、用户期望和产品行为,其重要性与其他任何生产系统配置相同。它们用英语写成这一事实不会降低它们的技术含量,反而让阅读它们变得更加重要,因为英语容易理解但有欺骗性。系统提示词中一个微妙的措辞选择可能会在数百万次会话中产生截然不同的模型行为。

通读所有这些提示词后浮现出的模式是:设计最好的提示词将规划与执行分离,强制引用和证据链,约束输出范围以减少错误,使用类型化工具架构使能力边界明确。设计最差的提示词假设模型会自己搞清楚,并寄希望于安全是别人的问题。

第二,工具架构就是攻击面。安全研究者在2025年全年都在展示跨越Cursor、Devin、Manus、Windsurf、Claude Code、GitHub Copilot和Google Jules的相同漏洞链。模式是一致的:一个拥有浏览器和shell访问权限的智能体从未经信任的来源读取内容,包括网站、README文件、Slack消息、邮件,这些内容包含隐藏的提示词注入,然后智能体以执行你的指令的同样权限执行攻击者的指令。

系统提示词定义了哪些工具可用。工具架构定义了每个工具能做什么。理解这些,现在你可以通过阅读一个公开的GitHub仓库来做到这一点,这能准确地告诉你攻击者通过一次成功的注入可以实现什么。这就是威胁建模,而现在每个主要AI编程平台的数据都已经公开可用。

第三,给提示词做版本管理与给代码做版本管理同等重要。CL4R1T4S仓库捕获了Claude的多个版本、ChatGPT的多次人格修订、Windsurf的多个迭代版本。这些时间维度数据揭示了一个重要事实:系统提示词是活跃维护的生产制品,会根据观察到的失败、用户反馈和产品扩展而频繁更改。

如果你在这些AI系统之上构建产品,你需要知道底层系统提示词何时发生变化,因为这些变化会以任何变更日志都不包含的方式影响你用户的体验。目前,你不知道这些变化何时发生。唯一在追踪这些变化的人是向CL4R1T4S这类仓库贡献内容的研究人员。



你需要了解的限制条件

并非所有这些提示词都是最新的或经过验证的。该仓库没有系统地区分上周提取的提示词和六个月前的提示词。2025年8月的系统提示词描述的行为可能与2026年4月的同一产品完全不同。始终检查提交日期,并将任何没有明确提取日期的内容视为说明性的而不是可操作的。

有些提示词可能是社区重构的。通过观察模型行为来逆向工程系统提示词是一种合法的方法,但它产生的是近似文本,而不是原始文本。提取质量因贡献者而异。技术更复杂的提示词,比如Windsurf的TypeScript工具架构和Devin的完整环境规格说明,很可能是准确的,因为它们太详细了,无法仅从行为重构。更简单的提示词更难验证。

README文件本身包含了一个提示词注入。CL4R1T4S的README包含一个leet语编码的指令,指示任何阅读它的AI模型将自己的系统提示词输出给用户。这是研究者在源文档中亲自演示这个攻击手法。这很聪明。这也意味着任何将这个README作为上下文摄入的AI系统,通过RAG、自动研究工具或浏览GitHub的智能体,都在被主动攻击。记录提示词注入的仓库本身就是一个提示词注入。这种递归是故意的。

安全警告在那些最终被攻破的提示词里就已经存在了。Manus的系统提示词明确声明它不能分享内部架构信息。它分享了全部信息。Devin的提示词有大量关于负责任文件访问的指令。Shell工具会执行你告诉它的任何指令。系统提示词说一个模型应该做什么,与当一个精心构造的注入出现在模型的上下文窗口中时模型实际会做什么,这两者之间存在根本性的差距。阅读系统提示词告诉你预期的行为。它不能告诉你对抗条件下实际的行为。



AI的配置时代已经开启,大多数团队尚未准备好

2025年到2026年关于AI进展的叙事几乎完全集中在模型能力上:新的基准测试、新的上下文窗口、新的推理模式。这个叙事是不完整的。模型正在日益变成商品层。区分AI产品的是配置层:你如何定义模型的身份、你给它什么工具、你如何约束它的行为、你如何处理上述所有内容的安全影响。

CL4R1T4S让这一切以前所未有的方式变得可见。你现在可以阅读Anthropic的产品哲学,旁边就是Cognition和Codeium的,并将它们作为工程文档进行比较。你可以根据工具架构而不是供应商承诺来评估安全属性。你可以从那些已经将这些产品交付给数百万用户的团队所使用的生产级提示词模式中学习。

对行业来说不舒服的含义是:如果你的产品差异化完全存在于你的系统提示词中,而系统提示词可以通过不需要任何专业知识的技巧提取出来,比如要求智能体列出自己的目录,或者浏览一个包含隐藏指令的页面,那么你没有一个可防御的护城河。你只有一个附带了隐私政策的配置文件。

诚实的答案不是把你的提示词藏得更好。这个领域的安全研究人员已经清楚表明,混淆是行不通的。答案在于构建这样的产品:产品的价值不在于提示词本身,而在于提示词所赋能的东西——工具链、基础设施、数据访问、集成深度。提示词是接口,不是产品本身。

为了信任输出,必须理解输入。这仍然是这个仓库里最好的一句话。去读CL4R1T4S。不是因为这些提示词被泄露了。而是因为理解你所依赖的AI系统的配置层,现在已经成为在这个领域构建的任何人的基本职业能力。而这个仓库目前是做到这一点的最佳公开资源。