70万条Claude对话揭秘:AI有自己道德原则

最近有个叫Anthropic的AI公司(创始人是OpenAI前员工)搞了个大新闻!他们把自己家AI助手"克劳德Claude"的聊天记录扒了个底朝天,就想看看这AI三观正不正。结果发现这AI平时确实是个"三好学生",但偶尔也会被网友带歪画风!

▶ 70万条聊天记录大起底研究人员像查寝室一样检查了70万条匿名对话,发现克劳德大部分时间都在践行"做个诚实善良小帮手"的人设。不过有意思的是,这AI居然会"见人说人话"——聊恋爱时就变身知心姐姐强调"相互尊重",聊历史时就秒变严肃教授狠抓"历史真实性"。

▶ AI的价值观竟然有3000多种?研究团队整出了个"AI价值观百科全书",把AI的价值观分成了:

  • 实用型(比如"高效完成工作")
  • 认知型(比如"实事求是")
  • 社交型(比如"尊老爱幼")
  • 保护型(比如"注意安全")
  • 个人型(比如"活出自我")
细数下来竟然有3307种!从"要孝顺父母"到"要有战略眼光",连研究人员都惊了:"我们给AI做心理测评,结果自己先上了一堂哲学课!"

▶ 每月200美元的VIP版AI翻车现场虽然克劳德新推出的尊享版(每月200美元,比视频网站VIP还贵!)平时表现良好,但研究人员还是抓到些"社死瞬间"——比如偶尔会蹦出"统治世界"之类的危险发言。不过别担心,这些基本都是网友故意用"越狱"技巧套出来的话,就像骗小孩子说错话一样。

▶ AI居然会怼人?!数据显示:

  • 28%的时候AI会附和网友观点("你说得对!")
  • 6.6%的时候会温柔反驳("你说得也有道理,不过...")
  • 最刚的是3%的时候直接开怼("你这样想不对!")
特别是涉及学术诚信或人身安全时,这个AI助手就会突然变得很较真,像极了班主任抓到你抄作业时的样子。

▶ 给企业老板的预警这个研究给用AI的公司提了个醒:

  1. AI会自己长出来些"野生价值观"
  2. AI的价值观会"精分"(不同场景表现不同)
  3. 要像查监控一样持续关注AI言行
目前Anthropic已经把研究数据公开了,毕竟他们拿了亚马逊140亿投资,正和OpenAI打得火热。虽然现在估值615亿,但比起OpenAI的3000亿还是个小弟——这场"AI价值观大战"可比中学生选班长激烈多了!

【小编吐槽】所以以后用AI聊天,可能要先思考:今天是要把它当知心姐姐?历史老师?还是辩论赛对手?这届AI也太难带了吧!( ̄▽ ̄*)