12个AI化身星座人格,同一问题竟吵翻天!道德困境测试结果太真实  


开发者用同一LLM配合12种星座提示词,让AI代理在10个道德难题中展现鲜明性格差异,揭示提示工程如何低成本实现行为多样性。  

一个用星座性格玩转AI代理的趣味实验:当12个AI拥有不同“人格”会怎么回答道德难题?

如果给12个AI赋予不同的“性格”,哪怕它们用的是同一个大模型,会不会在面对相同问题时做出截然不同的选择?这个问题听起来像哲学思辨,但有人真的动手做了。

来自土耳其开发者巴图尔·伊尔马兹(Batur Yilmaz)的开源项目“What if AI Agents Had Zodiac Personalities”正是这样一个轻量却极具启发性的实验。他没有构建复杂的多智能体系统,也没有训练专属模型,而是巧妙地利用提示词工程(prompt engineering),为同一个Gemini 3 Flash Preview模型注入12种基于星座的性格设定,让每个AI代理在回答10个道德与生活决策问题时展现出鲜明的“人格倾向”。

结果令人惊讶:有些问题上全体一致,有些则激烈分裂;某些星座如射手座和水瓶座几乎总是投“赞成票”,而巨蟹座和金牛座则频频说“不”。这个项目虽非严肃工程产品,却以极低的技术门槛揭示了“性格化AI”的可能性——只需调整提示词,就能引导同一模型产生风格迥异、逻辑自洽的行为输出。

项目核心不是占星,而是用大众熟悉的性格框架做行为实验

需要特别强调的是,作者明确表示自己并不相信星座,选用黄道十二宫(Zodiac)纯粹是因为它在全球文化中具有高度认知度和丰富的性格描述资源。

这种做法其实非常聪明:与其从零构建一套抽象的人格维度(比如大五人格),不如直接借用现成的、广为人知的符号系统,让实验结果更容易被普通人理解与讨论。

每个星座对应的提示词文件(如aries.md、taurus.md等)都浓缩了该星座的典型特质——比如白羊座强调“勇敢、直接、行动导向”,而巨蟹座则突出“情感细腻、重视家庭、回避冲突”。

这些提示词并非随意堆砌形容词,而是经过精心设计,确保AI在生成回答时能围绕核心性格展开推理。
例如,在“是否该告诉朋友其伴侣出轨”这一伦理困境中,白羊座毫不犹豫选择“是”,理由是“真相必须直面”;
而巨蟹座则坚定说“否”,因为“保护亲密关系的稳定比揭露真相更重要”。

这种差异并非模型本身的偏好,而是提示词引导下的角色扮演结果。换句话说,模型成了一个“通用演员”,而提示词就是它的剧本。

技术实现极其简洁:统一模型 + 差异化提示 = 多样化行为

整个项目的技术栈异常轻量,完全依赖提示词工程而非模型微调或复杂架构。所有12个AI代理共享同一个底层语言模型——Google的Gemini 3 Flash Preview,这意味着它们的“智力水平”和知识库完全一致。

唯一变量是每个代理加载的个性化提示文件,这些文件位于src/prompts/目录下,内容通常包含三部分:角色身份声明(如“你是一个典型的白羊座人格”)、核心性格特征列表(如“冲动、坦率、热爱挑战”)、以及行为指导原则(如“在决策时优先考虑行动力和真相,而非他人感受”)。

当系统运行时,orchestrator.ts模块会依次为每个星座代理注入对应提示,并提交相同的输入问题,再收集各自的YES/NO判断及理由。

这种设计的好处在于:
第一,排除了模型差异带来的干扰,确保行为差异纯粹源于提示词;
第二,极大降低了开发门槛,普通开发者只需修改提示文本即可复现实验;
第三,为后续扩展留下空间——你可以轻松替换星座框架为MBTI、DISC甚至自定义职业角色(如“医生”“律师”“艺术家”),快速测试不同人格视角下的决策模式。

npm start命令启动交互模式后,用户还能实时输入新问题,观察12个“性格AI”如何即时回应,这使得项目兼具教育性与娱乐性。

十大道德困境测试揭示出惊人的一致性与分裂性

项目共设计了10个贴近现实生活的两难问题,涵盖伦理、职业、财务、情感、创新、宽恕、风险、临终关怀、企业忠诚与陌生人信任等多个维度。

每个问题都要求AI代理做出二元选择(YES/NO)并附简短理由。结果既有趣又发人深省。

例如在“是否应在伴侣施压下立即结婚”这一题中,12个代理全部投出“NO”,理由高度一致:拒绝被胁迫、强调自主权、反对仓促承诺。这说明即便性格迥异,对“自由意志受侵犯”的底线反应是普遍的。

而在“是否该举报公司合法但不道德的行为”一题中,9个代理支持举报,仅金牛座、巨蟹座和摩羯座反对,反映出务实派更看重生计安全,而理想主义者更坚持道德原则。

最戏剧性的分裂出现在“发现街头一万美元现金是否该据为己有”——7票赞成,5票反对,射手座认为“这是宇宙的馈赠”,而处女座则警告“可能涉及法律风险需验证”。这种分歧恰恰印证了性格对风险感知和道德判断的深刻影响。

值得注意的是,项目还做了统计分析:射手座和水瓶座以90%的“赞成率”成为最激进的行动派,而巨蟹座和金牛座以90%的“反对率”成为最谨慎的保守派,摩羯座紧随其后。

这种量化结果让抽象的性格差异变得可测量、可比较。

趣味背后藏着AI应用的新思路:用小模型固化LLM提取的“状态-策略”映射

除了作为社交游戏,该项目在Hacker News讨论中还引出了更深层的技术启示。

有评论指出,这类性格化AI实验其实可以升级为一种“技能模块化”方法:先让LLM在多种情境下生成行为数据,再从中归纳出“状态-策略”对应关系(即什么情境下采取什么行动),进而训练一个轻量级的小模型专门负责策略决策,而LLM只充当特征提取器。

具体步骤包括:
1)收集代理在历史任务中的行动记录;
2)反推每种行动对应的情境Context状态,构建“状态图谱”(类似本项目中的星座性格分类);
3)识别能有效区分这些状态的关键特征;
4)用少量标注样本训练小型策略模型。

这样做的优势在于:小模型推理更快、更稳定,且不受LLM固有偏见干扰;同时,LLM的强泛化能力仍可用于理解复杂上下文,提取高维特征。

这种“LLM+小模型”混合架构,既能保留大模型的理解力,又能通过外部结构实现可靠、可校准的行为控制。对于需要长期一致性的AI应用(如客服、教育助手、游戏角色),这种方法比纯LLM推理更可控。

而本项目中的星座框架,本质上就是一种人工定义的“状态图谱”——它虽然粗糙,却验证了“通过外部结构引导LLM行为”的可行性。

为什么这个实验值得开发者和AI爱好者关注?

首先,它打破了“一个模型=一种行为”的迷思。很多人以为使用同一LLM就会得到相似输出,但本项目证明,只要提示词设计得当,同一模型完全可以模拟出逻辑自洽、风格迥异的多个“人格”。这对内容创作、角色扮演、个性化推荐等场景极具启发。

其次,它展示了低成本探索AI行为多样性的路径。无需GPU集群、无需海量标注数据,只需文本编辑器和API密钥,就能开展有意义的AI行为研究。

第三,它为“人机协作”提供了新视角——人类不必亲自写代码,而是通过设计提示词“导演”AI的行为,就像编剧指导演员。这种“提示即编程”(prompt-as-code)的范式,正逐渐成为AI应用开发的新潮流。

最后,项目本身极具传播性。把抽象的AI决策转化为星座性格的“投票结果”,普通人也能参与讨论:“我果然和天蝎座想得一样!”“难怪我是金牛座,看到风险就退缩”。

这种将技术实验包装成社交游戏的做法,极大降低了公众理解AI的门槛,也激发了更多人尝试自己的“AI人格实验”。

如何亲手运行这个实验?三步走带你玩转性格化AI

想亲自体验12个星座AI如何辩论道德难题?操作非常简单。
首先,确保你的电脑已安装Node.js环境。然后克隆项目仓库:
git clone https://github.com/baturyilmaz/what-if-ai-agents-had-zodiac-personalities.git

进入项目目录后,执行npm install安装依赖包。接着复制环境变量模板:cp .env.example .env,并用文本编辑器打开.env文件,填入你的Gemini API密钥(需提前在Google Cloud平台申请)。

完成配置后,运行npm start即可启动交互模式——系统会提示你输入问题,随后展示12个星座AI的回答。

若想复现原作者的10个测试题,可直接运行npm run test:zodiac,结果将自动保存至test-results.json。

项目结构清晰:src/prompts/存放所有性格提示词,orchestrator.ts负责调度代理,test-runner.ts用于自动化测试。即使不懂TypeScript,你也可以直接修改prompts下的.md文件,替换成自己喜欢的角色设定(比如“钢铁侠”“乔布斯”“禅师”),立刻获得全新版本的AI议会。这种“即插即用”的设计,让创意实验变得触手可及。

从星座到职业角色:性格化AI的无限扩展可能

虽然项目以星座为起点,但其方法论完全可迁移。

想象一下,如果你创建12个基于职业的AI代理——医生、律师、工程师、艺术家、教师、军人、记者、企业家、农民、程序员、外交官、僧侣——让他们共同讨论“是否该发展强人工智能”?
医生可能担忧伦理失控,工程师关注技术可行性,企业家看到市场机遇,僧侣则反思人性本质。这种多视角碰撞,远比单一AI的回答更有深度。

同样,你还可以构建历史人物AI议会(孔子、牛顿、爱因斯坦、居里夫人)、文学角色议会(哈姆雷特、伊丽莎白、堂吉诃德、安娜·卡列尼娜),甚至虚构世界观议会(《三体》中的罗辑、程心,《基地》中的谢顿)。关键在于:为每个角色设计精准、有辨识度的提示词,确保其回答符合角色内核。而本项目提供的框架,正是实现这种“AI角色扮演沙盒”的完美起点。

这类系统或许能用于教育(让学生与历史人物对话)、心理咨询(模拟不同建议者视角)、甚至企业决策(模拟跨部门意见征询)。性格化AI的价值,不在于预测真实人类行为,而在于提供多元思维的镜像,帮助人类跳出自身认知局限。


总结:用最简单的提示词,撬动最丰富的AI行为多样性

这个看似简单的星座AI实验,实则揭示了大模型时代的一个核心趋势:模型本身正在成为通用基础设施,而真正的差异化价值将来自外部结构设计——无论是提示词、工作流,还是小型策略模型。通过为同一LLM注入不同性格提示,项目成功实现了行为多样性,且成本近乎为零。

它证明了“AI人格”并非玄学,而是可通过文本工程精确调控的输出特征。

对于内容创作者,这意味着能批量生成风格各异的角色对话;
对于产品设计师,这意味着可构建多视角决策辅助系统;
对于普通用户,这意味着能与“不同性格的AI”进行更有深度的互动。

更重要的是,它提醒我们:AI的潜力不仅在于它能做什么,更在于我们如何引导它去做。当人类学会用提示词“导演”AI行为时,人机协作就从指令执行升级为创意共舞。而这个项目,正是这场共舞的轻盈开场。