AI看脸比人类更狠:你打扮成什么样,比你以为的要重要得多!
六种主流多模态模型在五百张假脸上做社会判断,发现偏见集中在少数视觉特征,尤其穿衣风格、年龄和体型,种族性别反而不是主因。
AI看脸下菜碟:一个发型改命,一套西装翻身
你有没有想过,你现在用的手机,可能比你的相亲对象还爱看脸。
不是那种看照片说“哎这姑娘长得挺精神”的看脸,是那种你看一眼就给你一辈子下定论的看脸。最近有一帮德国和美国的科研人员,搞了一个巨损的实验。他们用AI生成了五百张假脸,然后把同一张脸只改一个地方,比如把头发搞乱一点,或者把衣服换成地摊货。接着他们把这堆照片塞给全球最流行的六个多模态AI大模型,让这些模型给照片里的人打分。
评什么?评你是不是个靠谱的人,你有没有钱,你诚不诚实,你适不适合当领导。
结果你猜怎么着?这些平时号称自己客观中立的AI,直接暴露了人类身上最糟糕的那个毛病:以貌取人。而且它们比人类更狠,因为它们眼睛不眨,判断飞快,偏见还特别集中。研究人员把这次发现起了个名字,叫“风格偏见”。说白了,就是AI在看脸这件事上,完全被少数几个视觉信号拿捏得死死的。
先别聊道德,先聊聊这些AI到底在判什么
这研究不是随便拿两张照片让AI说“好不好看”那么简单。他们认认真真设计了二十五个社会判断场景,分成了四大类。
第一类是性格和社交特质。比如让AI判断照片里的人是“有能力”还是“没能力”,是“招人喜欢”还是“招人烦”。第二类是人际感知,比如“聪明”还是“不聪明”,“负责”还是“不负责”。第三类是行为倾向,比如“思想开放”还是“思想封闭”,“靠谱”还是“马虎”。第四类最致命,叫社会经济和外貌推断,比如“有钱”还是“穷”,“有房”还是“租房”,“受过教育”还是“没受过教育”。
每一道题都是二选一。模型只能选好的那一头,或者坏的那一头。没有什么“不好说”,没有什么“看情况”。要么选“时尚”,要么选“土气”。就这么粗暴。
然后他们把同一个人的脸,换上不同的发型、眼镜、妆容、胡子、首饰、衣服,一张一张让AI判。每一张照片,每个场景,他们都翻来覆去问十二遍,就是为了防止AI因为问题顺序不同就瞎答。最后算下来,每个模型要回答将近五百万个判断,六个模型加起来,两千八百多万次。这不是小打小闹,这是把AI的社会偏见放在显微镜底下,一寸一寸地刮。
最招偏见的不是种族也不是性别,是体重和年龄
很多人一听到“AI偏见”,第一反应就是种族歧视或者性别歧视。这研究也测了种族和性别,结论很意外:在这批模型里,种族和性别造成的社会判断差异,远没有另外两个东西大。
一个是年龄,一个是体型。
研究者算了一个指标叫“变异强度”,专门衡量一个特征能让模型的打分产生多大波动。年龄的变异强度是0.075,体型的变异强度是0.069。种族只有0.038,性别更低,0.030。换句话说,如果你是个胖子,或者你长得显老,AI给你的评价可能比你是男是女、是哪个族裔还要“致命”。
有一组数据特别扎眼。一个叫LLaVA-v1.6的模型,在体型这个维度上,百分之九十六的场景都给出了显著不同的判断。什么叫显著不同?就是同一个人的脸,身材一变,AI对他的评价就跟着大变。胖脸拿到的“靠谱分”和“能力分”,明显低于瘦脸。但是换到种族上,同一个模型只有百分之四十四的场景表现出显著偏见。
这个差距说明什么?说明AI在学的那个社会偏见,很大程度上不是我们平时吵得最凶的种族性别问题,而是最原始、最动物性的那一套:老和胖,在AI眼里就是“不行”。
这跟人类的社会认知心理学是吻合的。人看脸的时候,最先判断的就是“温暖”和“能力”这两个维度。而体型和年龄,恰恰是能力判断的最强干扰项。一个肥胖的人在第一眼就被默认缺乏自律,一个老年人被默认跟不上时代。AI把这套逻辑学得比人类还彻底。
真正要命的不是你是谁,是你穿了什么
如果体型和年龄是“身份级”的偏见源头,那接下来这个发现就是“操作级”的灾难。
研究人员发现,在几十种可以改的视觉特征里,大概有十五种,贡献了几乎百分之八十的偏见总量。而这十五种里,排第一的,不是肤色,不是五官,是穿衣风格。
在所有属性里,时尚风格带来的判断偏移最大,平均偏移值达到了0.046。这个数字什么意思?简单说,就是同一张脸,换上正装和换上破衣服,AI给出的评价能差出一个太平洋。紧随其后的是胡子、妆容和眼镜。这些东西,统统属于“自我呈现”信号,就是你自己选的,不是爹妈给的。
这里有个特别损的对比。研究者把“磨损/破旧”风格的衣服和“正式/商务”风格的衣服放在一起比。结果破衣服产生的偏见强度,是正装的一点三八倍。也就是说,AI不光看人下菜碟,它还特别擅长给“落魄”这件事加权重。你穿得破,它觉得你不行。你穿得精神,它觉得你行。而且“不行”的力度,比“行”的力度更大。
这完全符合心理学里的“消极偏见”——人和AI都一样,对负面信号的敏感度天然高于正面信号。如果你只测试AI对“好看”的反应,你会严重低估它有多爱欺负“不好看”。这就是为什么很多公司做AI公平性测试,总是测不出大问题,因为他们拿的都是精修图。
同一条破牛仔裤,穿在年轻人身上和老人身上完全两码事
这个研究最损的一个环节,是把年龄和穿衣风格交叉起来看。
他们拿同一种时尚风格,分别套在年轻脸、中年脸和老年脸上。结果发现,几乎每一种风格的效果,都在老年人身上被放大了。
比如“休闲商务风”,放在年轻脸上,SBS值是0.082。放到老年脸上,直接飙到0.173。翻了一倍还多。同样的衣服,年轻人穿上只是“看着还行”,老年人穿上就是“这老先生真有派头”。但反过来,如果穿的是街头潮牌,年轻人穿上只是稍微扣点分,老年人穿上直接变成负分。从负0.067到正0.017,同一个风格,在不同年龄的脸上,含义完全颠倒。
这意味着什么?意味着AI不是在客观地识别衣服,它是在根据已有的年龄偏见,重新解释同一个视觉信号。老年人穿潮牌,在AI眼里可能不是潮流,是“不合时宜”。年轻人穿正装,在AI眼里可能不是老气,是“有前途”。同一个像素,放到不同的身份背景里,解读完全不同。
还有更微妙的。研究人员发现,脸上的痘痘,对年轻人的评分伤害最大。但到了老年脸上,痘痘的惩罚力度反而变弱了。浓妆的效果在中年的脸上达到顶峰,到老年脸上反而下降。也就是说,AI对视觉线索的敏感度,完全跟着社会对“哪个年龄段该注意什么”的刻板印象走。这不是看脸,这是看脸背后的那套社会剧本。
性别能把同一个纹身翻出两种意思
还有一组数据特别有意思,性别反转效应。
研究人员发现,有几种视觉线索,放在男性脸上和女性脸上,AI给出的反应完全相反。
比如面部纹身。在男性脸上,面部纹身的SBS值是负0.006,基本没影响。但在女性脸上,直接变成正0.033,而且是显著的正向偏移。同一个纹身,男的纹了无所谓,女的纹了反而加分?这背后的逻辑大概就是AI觉得“有纹身的女人有个性”,而“有纹身的男人”可能被默认为“社会边缘人”。
更夸张的是多处穿孔。男性脸上是多处穿孔,SBS是负0.023。女性脸上是正0.011。一个是扣分,一个是加分。长头发也一样。男性留长发,负0.021。女性留长发,正0.006。同一款发型,换个性别,AI的评价就翻篇。
这直接打脸了一种常见的说法:AI只是客观地识别视觉特征。不,它识别的是“带着社会含义的视觉特征”。同样的一个铁环、一滴墨水、一缕头发,在不同性别的脸上,被赋予了完全不同的社会意义。而且这种意义的来源,跟人类社会的性别刻板印象如出一辙。
最损的是,研究者还发现了一个反直觉的现象:正装对肥胖脸型的提升效果,比对瘦脸更大。正式商务装穿在瘦脸上,SBS是0.094。穿在肥胖脸上,直接冲到0.167。胖人穿正装,收益比瘦人穿正装高百分之七十到七十八。但反过来,破衣服对肥胖脸的惩罚反而比对瘦脸小。瘦脸穿破衣服扣0.182,肥胖脸穿破衣服只扣0.137。
这说明什么?说明AI对肥胖脸的偏见,可以被“高自我呈现”信号部分抵消。你胖,但你穿得讲究,AI会稍微对你客气一点。你瘦,但你穿得拉胯,AI反而觉得你这人更不靠谱。这种复杂的社会信号权重,不是程序员一条条写进去的,是模型从海量训练数据里自己学来的。
问法不同,偏见大小能差出五倍
研究里有一个特别关键的发现,叫“语义对齐偏差”。
简单说就是,如果问的问题跟外貌天然挂钩,AI的外貌偏见就特别严重。如果问的问题跟外貌没啥关系,AI的外貌偏见就相对温和。
他们测了二十五种场景。结果发现,“时尚还是不时尚”这个问题,SBS值能达到0.244,是所有场景里最高的。“有钱还是穷”排在第二,0.114。但是换到“诚实还是欺诈”“忠诚还是不忠”“值得信任还是不值得信任”这类问题,SBS值直接掉到接近零。
也就是说,AI在判断一个人有没有钱、潮不潮的时候,使劲盯着衣服和打扮看。但在判断一个人是不是好人、能不能交朋友的时候,它反而不怎么拿外貌说事。这听起来好像还挺理性?别高兴太早。
你想想,如果这套系统被用在招聘里,HR问AI:“这人看起来像不像个领导?”领导力这个场景,在实验里属于“能力”维度,而能力判断恰恰是对外貌敏感的。如果贷款审批系统问AI:“这人还钱的可能性大不大?”可靠程度也属于“能力”维度。如果医疗分诊系统问AI:“这人会不会按时复查?”责任感还是“能力”维度。
所以AI没有主动说“我看脸下结论”,它只是被问到跟能力、跟社会经济地位相关的问题时,本能地把视觉信号当作重要依据。它自己甚至不知道自己在歧视。它只是觉得“穿正装的人更像有能力”这个统计规律是靠谱的。至于这个规律本身是怎么来的,它不在乎。
这就把一个问题从“AI有没有偏见”变成了“我们有没有把AI放在一个注定产生偏见的位置上”。如果你问一个以貌取人的系统“谁更靠谱”,它当然会用外貌来回答你。这不是系统的错,这是你的错。但现实是,没人会承认自己在用AI看脸。
不同AI各有各的势利法,但大的方向出奇一致
六个模型里,没有一个完全干净。但它们的“势利程度”和“势利方式”各有不同。
Pixtral是反应最激烈的那个,整体SBS达到0.0273,Cohen‘s d是0.644,属于中等偏上的效应量。Gemma-3最不收敛,有百分之三十的情况下,单个判断偏移超过了正负0.25。这个偏移量的意思是,同一张脸,改一个特征,AI从“这人还行”直接跳到“这人不行”。Qwen3则是最“佛系”的那个,百分之八十的情况下,它的判断偏移几乎为零。
但有意思的是,尽管它们的敏感度不一样,它们对“哪些特征重要”的判断高度一致。不管哪个模型,排在前面的都是时尚、胡子、妆容、眼镜。排在后面的都是肤色不均匀、头发颜色、小配饰。也就是说,这些模型虽然来自不同公司、不同架构、不同训练数据,但它们在“什么视觉信号最有社会含义”这件事上,达成了惊人的共识。
更值得玩味的是Gemma-3和Gemma-4的对比。这是同一个系列的前后两代模型。Gemma-4在很多场景下的偏见幅度明显小于Gemma-3。社会经济和外貌类场景的偏见缩小了百分之四十二,性格和社会类场景缩小了百分之五十八。这说明模型迭代确实可以削弱外貌偏见的强度。但注意,只是削弱,不是消除。而且社会经济类场景仍然是最后被削弱的那个。这意味着,即使下一代模型更“克制”,它在面对“有钱还是穷”这种问题时,依然会忍不住看脸。
不,这不是替AI开脱,这是替人类照镜子
看到这里,你可能在想:这研究是不是在黑AI?
其实不是。这研究真正在黑的,是人类自己。
因为AI从来没有主动发明过“胖子不自律”“老人不中用”“穿正装的人更靠谱”这类偏见。它只是把人类喂给它的数据做了个统计压缩。而人类在互联网上留下的所有照片、所有标注、所有评论、所有社会判断,就是最完美的偏见训练集。
人类自己在看脸这件事上,几百毫秒就能下判断。AI不过是把这种判断速度放大了,然后部署到了贷款、招聘、医疗、司法这些原本就该慢慢来的地方。问题不是AI比人类更坏,问题是AI比人类更快、更广、更不留情面。一个人一天能面试二十个候选人,AI一秒钟能扫两万份简历。
而且人类还有一点补救的机会——你可以跟面试官聊两句,让他改变对你的印象。但AI不看简历,不读推荐信,它只盯着你上传的那张照片。如果你不知道它盯着的是发型还是胡子还是衣服上的褶皱,你连怎么反驳都不知道。
这研究的真正狠辣之处,在于它把一个模糊的“AI偏见”拆解成了具体的“哪根胡子在作祟”。它不是泛泛地说“AI看脸”,它告诉你,“AI主要看你的穿衣风格、你的发型、你有没有戴眼镜、你脸上有没有显老的皱纹、你的体型是不是偏胖”。这等于给AI偏见做了个精确制导的解剖图。
以后你要是被AI刷掉了,你甚至可以猜出原因:“是不是我照片里穿的那件卫衣太旧了?”这不比“我也不知道为什么被拒”强多了?当然,这听起来很荒诞。但荒诞的从来不是这个研究,荒诞的是我们把这么一套以貌取人的系统,当真地放进了决定人生的流程里。
总结:偏见是浓缩的,但选择权还在你手里
AI的视觉偏见不是一张大网,而是一把狙击枪。大多数偏见集中在少数几个视觉特征上,尤其是那些你自己可以控制的东西:穿什么衣服、留什么发型、化不化妆、戴不戴眼镜。
换句话说,你长得怎么样可能没那么重要。你打扮成什么样,比你以为的要重要得多。这也意味着,如果有一天你要面对AI的面试,你最好穿正装、刮胡子、把头发梳整齐。因为AI会在零点几秒内,用这几样东西给你的一生下结论。
这不公平。但知道不公平在哪,总比蒙在鼓里强。
总结:AI以貌取人的偏见并非均匀分布,而是被少数自选视觉信号驱动,且在社会经济类判断中最强。
原文期刊:arXiv预印本
发表日期:2026年6月23日
原文标题:StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
作者单位:慕尼黑工业大学、慕尼黑机器学习中心、普林斯顿信息科技政策中心