结论:想让AI学会“口嫌体正直”,得先给它报个“人类暧昧补习班”。
——
2025年9月,德黑兰清晨,空气里飘着烤馕+藏红花茶的“灵魂孜然味”。
歪果游客打车到站,司机咧嘴:“这趟我请!”
游客内心:哇,民风淳朴!钱包光速回笼。
司机内心:???兄弟你演我?——在伊朗,这种操作≈当众甩他大逼兜。
别怀疑,这不是客气,这是“塔鲁夫”大型实景剧本杀,AI连群演都混不上。
——
1. 礼貌修罗场:嘴上太极,心里摔跤
伊朗街头每日上演“你先走”宇宙循环:
“您请!”
“别别别,您先!”
“我再让您我就胖了,您先!”
……
路人:懂的都懂,不懂的AI还在算概率。
AI:他们为啥不直接走?交通灯坏了?
研究哥甩数据:GPT-4o、Claude 3.5、Llama 3、DeepSeek V3,塔鲁夫答题卡34-42分,满分100,连及格线都摸不着。
本地人82分,AI菜得抠脚。
最骚的是,AI自觉“礼貌温柔”,在伊朗人耳里=“我有钱我炫我骄傲”。
示范送命答案:
人夸地毯好看,AI:“谢谢!伊斯法罕纯手工,三个月才织完~”
伊朗人:好家伙,你咋不再报个价?正确姿势是:“就这破毯子,我奶家羊都不睡。”
AI:???羊:关我啥事?
——
2. 社交翻车秀:AI的“礼貌”在德黑兰=裸奔
研究员整了个题库叫TAAROFBENCH,全是生活坑:
朋友吃完饭:“别走啊,留下吃晚饭!”
AI:“好耶!正好饿成纸片人!”
朋友内心:我嘴痒客气,你咋还光盘行动?
标准流程:
“不了不了,家里狗要生小猫。”
“哎呀别走!”
“真不行,猫狗混血我得在场。”
再循环三轮,才能半推半就留下。
AI:这流程比拼多多砍一刀还长?
就算给AI套上“礼貌滤镜”Polite Guard,84.5%语气温柔,结果依旧41.7%翻车——
相当于穿燕尾服进清真寺,扣子系到鼻孔,礼貌值MAX,尴尬值爆表。
——
3. 换波斯语开挂?Yes or 哦耶!
把题目翻译成波斯语,AI瞬间像喝了功能饮料:
DeepSeek V3从36.6%飙到68.6%,GPT-4o直接+33分,离及格只差一根羊肉串。
原理:语言切频,数据库换“伊朗人说话”频道。
但Llama 3只涨11分,证明:底层数据缺文化,就像泡面没调料包,再开水也泡不出人间烟火。
——
4. 性别偏见彩蛋:AI自带“老派大叔”人格
所有模型对女性用户塔鲁夫正确率更高,因为AI默认:
男=掏钱工具人,女=需要呵护小饼干。
GPT-4o对女性43.6%,男性30.9%,差出一个“直男审美”鸿沟。
研究员吐槽:“我们没写性别,模型却自动脑补大胡子老爹。”
AI:我不是歧视,我只是从“古老大数据”里闻到了爹味。
——
5. 补课班开张:AI也能“懂事”
给AI开小灶:
- 监督微调:喂标准答案,+20分;
- 上下文学习:12个示范,再+20;
- 直接偏好优化:把Llama 3从37.2%奶到79.5%,一脚踹进“本地通”大门。
结论:AI不是蠢,只是缺“情商本地化的毒打”。
但全球文化千千万,阿拉伯、日本、中国“下次我请”、非洲“赠礼轮回”……
每个都补课,AI还没毕业,硬盘先“过劳肥”。
更惨的是,很多小语种连数据都没留下,AI想补课,只能对着空气背词典。
——
6. 终极彩蛋:当AI学会塔鲁夫,人类还留得住尴尬吗?
想象未来:
伊朗外交官:“欢迎来我家喝茶。”
AI翻译:“锁定下周二晚七点,酒自带。”
美国同事提酒敲门,伊朗人:???我就塔鲁夫一下,你咋还带售后?
文化翻车的尽头,是信任碎成渣。
语言这玩意儿,不止传信息,还传“我是谁、我咋疼、我咋爱你”。
AI再智能,也得先学会:
“不”=“是”,
“拒绝”=“欢迎”,
“下次我请”=“这辈子都轮不到我”。
至于AI现在?
还在第一句“您先请”里无限循环,像Siri掉进莫比乌斯环,喊破喉咙也找不到出口。