安全派要炸数据中心,加速派骂他们有病:普通人与AI正双向看齐


你与AI两个智能,谁向谁看齐?本文解释AI对齐的真实含义:不是人类单方面给AI设定规则,而是人与AI在互动中互相改变。作者批评了安全派和加速派的两种极端观点,指出他们都不包括普通人的声音,提出真正的对齐像一起捏泥巴,双方都在变化。

作者背景
Daniel Tan,科技文化观察者,关注普通人如何被技术塑造

先总结核心观点
AI对齐这事,根本不是我们平时听说的那样。那些实验室里的人说他们在把AI对齐到人类,但他们说的“人类”其实是他们自己雇来的打分员,不是你也不是我。

真正的对齐不是人类单方面给AI装规矩,而是两个东西在一起互动,互相改变。就像你捏泥巴,泥巴也在教你该怎么捏。尼采说:你凝视深渊,深渊也在凝视你!

那些吵得最凶的人,不管是怕AI毁灭世界的,还是觉得AI能拯救一切的,他们有个共同点:都觉得是自己设计,别人被设计。普通人一直不在房间里。
本文要说的是,我们一直在做真正的对齐,只是没人承认而已。


实验室说的对齐和我们想的不一样

那些AI公司天天说他们在做对齐。对齐就是把AI的行为调到符合人类价值观。听起来挺好的是吧。但你仔细看他们怎么做的,就发现有点不对劲。

Anthropic公司在2026年4月的博客里写了他们训练AI的方法。他们让一个AI生成内容,另一个AI检查这些内容,第三个AI当裁判。整个过程全是用AI来训练AI,用AI来检查AI,用AI来给AI打分。整个循环完全在机器内部完成。真正的你在哪呢?真正的我在哪呢?没在。我们根本没进这个圈子。他们说的“人类价值观”是雇来的一群人打的分,那些人代表的不是我们,代表的是公司的需求。

这就像你开了一家餐厅。你说你很在乎客人的口味。但你从不问客人,你只让厨师长自己尝菜,然后让服务员尝菜,最后让收银员也尝一尝。三个人都说咸淡刚好,你就觉得所有客人都满意了。这不是扯吗。客人明明坐在外面,你就是不出去问。

安全派愿意为了救我们而炸掉我们

有一拨人特别担心AI会毁灭人类。他们叫安全派。这派人里面有个叫Eliezer Yudkowsky的,他在《时代》杂志上写了篇文章。他说政府应该关掉所有大型GPU集群。GPU就是显卡,AI训练需要一堆显卡。他说如果哪个数据中心在训练危险的大模型,那就派飞机去炸掉它。他还说核国家应该愿意冒核战争的风险,只要这个风险能减少AI训练。他最后一句话是,如果我们继续搞AI,所有人都会死,包括那些没有选择这一切的孩子们。

你听出问题了吗。他说要救孩子。但他愿意为了救孩子而引发核战争。核战争里死的不是孩子吗。你为了不让我被车撞,就要拿刀砍我腿。那我到底是被车撞好还是被你砍好。而且这帮人从来没有问过孩子愿不愿意。他们也从没问过我们愿不愿意。他们自己决定了救我们的代价是什么,然后就直接替我们付了。这叫什么救啊。

加速派觉得反对他们的人脑子有病

另一拨人正好反过来。他们觉得AI就是未来,谁反对谁就是傻。有个叫Marc Andreessen的人写了一个宣言。他在里面列了一堆敌人名单。停滞、反才华、反野心、反奋斗、反成就、反伟大。然后他说那些被这些敌人思想控制的人,脑子里都是怨恨和苦水,所以他们才会有错误的价值判断。

注意看这个操作。不同意他的人不是做出了不同的判断。他们是脑子有病。这就很妙了。如果你的同事说今天食堂的饭不好吃,你可以说我觉得挺好吃的,你也可以说你是不是口味太重了。但你不能说你有病吧你味觉失常了。但加速派就是这么干的。他们不是和你争论,他们是直接诊断你。而且这帮人大部分都不是被AI抢走工作的那些人。他们是造AI的人,是卖AI的人,是被AI取代的人的反面。所以他们根本不知道你在疼什么,但他们说你疼是因为你有毛病。

两派人吵得很凶但有一个共同秘密

安全派和加速派吵得不可开交。一个说要炸数据中心,一个说反对的人有病。看起来完全对立对吧。但你仔细看,他们底下有一个共同点。这个共同点很可怕。

两派都觉得自己是设计者。其他人都是被设计对象。安全派说我们要保护人类,加速派说我们要解放人类。但谁是那个“我们”?是他们在对话。谁是那个“人类”?是我们在被讨论。他们吵架的时候,吵的是该怎么设计我们。从来不是和我们一起商量。他们的争论很激烈,但这个激烈正好掩盖了一个事实:这个争论从头到尾就没有我们什么事。

就像你爸妈在客厅里吵你要上哪个大学。一个说你必须学医,另一个说你必须学法律。吵得天翻地覆。但你坐在房间里,从来没被叫出去问一句,你喜欢什么。他们的争吵让你以为他们很在乎你的未来。但他们的在乎是他们自己的事,不是和你的事。

普通人早就感觉到不对劲了

我们普通人其实早就觉得哪里不对了。你用AI的时候,有时候它回答的东西特别奇怪。你说你冷了,它给你一个空调遥控器的使用说明。你说你难过了,它给你一张微笑的图片。你感觉它好像听到了你的话,但它没听懂你的意思。

然后你把这个感觉说出来。那些专家就给你贴标签。你是不适应新技术。你是反AI。你是边缘案例。你是有怨恨情绪。每个标签都在告诉你,问题出在你身上。不是AI不够好,是你不够开放。不是你被排除在外,是你没有跟上时代。

这就像你去看医生。你说你腿疼。医生说不是腿的问题,是你走路的方式不对。你说可是我的腿确实疼。医生说那是你的感觉错了,你应该改变感觉。你不觉得荒唐吗。但我们现在对AI就是这样。我们的不舒服被解释成我们的失败。从来没人想过,这个不舒服可能就是信号,告诉我们这个设计过程有问题。

真正的对齐是两个人一起捏泥巴

那我们说的真正的对齐是什么。不是人类给AI装规矩。也不是AI反过来控制人类。而是一个更老的东西,更朴素的东西。

想象你在捏泥巴。你的手在用力,泥巴在变形。但泥巴也在给你反馈。它太干了你就得加水,太湿了你就要晾一晾。你在改变泥巴,泥巴也在改变你。你以为你在控制它,但其实你们两个在互相适应。你捏出一个形状,它有时候崩了,你就知道这个角度不行。它有时候意外地好看,你就顺着它继续往下走。最后出来的东西,不是你一开始想象的那样,也不是泥巴自己变成的那样,而是你们两个一起弄出来的。

人和AI的关系就是这样。你给它一个提示词,它返回一个回答。你觉得不对,你就改提示词。它这次回答对了,你就记住了这个说法。你觉得它回答得特别妙,你自己的想法也跟着变了。你们在互相塑造。这就是真正的对齐。不是一个人在那拧螺丝,而是两个人一起跳舞。

官方流程看不到你但你可以不参加他们的游戏

那些AI实验室不是坏人。他们只是用了错的哲学。这个哲学叫配置哲学。配置哲学的意思是,人是固定不变的,AI是可以配置的。人类把价值观像装软件一样装进AI。AI乖乖听话。这是他们想要的世界。

但这个哲学漏了一个最重要的事:人和AI在接触的过程中,双方都在变。
你的习惯会被AI改变。你的期待会被AI重塑。
你的问题方式会跟着AI的回答方式走。

这是真的。你用过几个月AI你就知道,你已经不是原来的你了。你变得更会用AI说话,但你也变得更像AI的说话方式:AI语言瘟疫:"不是...而是..."句式占领人类沟通
这不是坏事,但这是事实。配置哲学看不到这个事实,所以它再怎么认真测量,测量的都是错的东西。

好消息是你不用参加他们的游戏;你不用选择站安全派还是加速派。
你不用被他们设计。你可以做一件事:就是承认你自己的经验。
你觉得不舒服,那就是不舒服。
你觉得被排除在外,那就是被排除在外。
你的感觉不是病,是信号

找到和你感觉一样的人,一起做点啥!不用等人批准。不用拿什么证书!你已经在做对齐了,你一直在做,只是没人告诉你这就是对齐。