AI以貌取人研究：六种模型暴露最致命视觉偏见

2026-06-23 7K banq

AI看脸比人类更狠：你打扮成什么样，比你以为的要重要得多！

六种主流多模态模型在五百张假脸上做社会判断，发现偏见集中在少数视觉特征，尤其穿衣风格、年龄和体型，种族性别反而不是主因。

AI看脸下菜碟：一个发型改命，一套西装翻身

你有没有想过，你现在用的手机，可能比你的相亲对象还爱看脸。

不是那种看照片说“哎这姑娘长得挺精神”的看脸，是那种你看一眼就给你一辈子下定论的看脸。最近有一帮德国和美国的科研人员，搞了一个巨损的实验。他们用AI生成了五百张假脸，然后把同一张脸只改一个地方，比如把头发搞乱一点，或者把衣服换成地摊货。接着他们把这堆照片塞给全球最流行的六个多模态AI大模型，让这些模型给照片里的人打分。

评什么？评你是不是个靠谱的人，你有没有钱，你诚不诚实，你适不适合当领导。

结果你猜怎么着？这些平时号称自己客观中立的AI，直接暴露了人类身上最糟糕的那个毛病：以貌取人。而且它们比人类更狠，因为它们眼睛不眨，判断飞快，偏见还特别集中。研究人员把这次发现起了个名字，叫“风格偏见”。说白了，就是AI在看脸这件事上，完全被少数几个视觉信号拿捏得死死的。

先别聊道德，先聊聊这些AI到底在判什么

这研究不是随便拿两张照片让AI说“好不好看”那么简单。他们认认真真设计了二十五个社会判断场景，分成了四大类。

第一类是性格和社交特质。比如让AI判断照片里的人是“有能力”还是“没能力”，是“招人喜欢”还是“招人烦”。第二类是人际感知，比如“聪明”还是“不聪明”，“负责”还是“不负责”。第三类是行为倾向，比如“思想开放”还是“思想封闭”，“靠谱”还是“马虎”。第四类最致命，叫社会经济和外貌推断，比如“有钱”还是“穷”，“有房”还是“租房”，“受过教育”还是“没受过教育”。

每一道题都是二选一。模型只能选好的那一头，或者坏的那一头。没有什么“不好说”，没有什么“看情况”。要么选“时尚”，要么选“土气”。就这么粗暴。

然后他们把同一个人的脸，换上不同的发型、眼镜、妆容、胡子、首饰、衣服，一张一张让AI判。每一张照片，每个场景，他们都翻来覆去问十二遍，就是为了防止AI因为问题顺序不同就瞎答。最后算下来，每个模型要回答将近五百万个判断，六个模型加起来，两千八百多万次。这不是小打小闹，这是把AI的社会偏见放在显微镜底下，一寸一寸地刮。

最招偏见的不是种族也不是性别，是体重和年龄

很多人一听到“AI偏见”，第一反应就是种族歧视或者性别歧视。这研究也测了种族和性别，结论很意外：在这批模型里，种族和性别造成的社会判断差异，远没有另外两个东西大。

一个是年龄，一个是体型。

研究者算了一个指标叫“变异强度”，专门衡量一个特征能让模型的打分产生多大波动。年龄的变异强度是0.075，体型的变异强度是0.069。种族只有0.038，性别更低，0.030。换句话说，如果你是个胖子，或者你长得显老，AI给你的评价可能比你是男是女、是哪个族裔还要“致命”。

有一组数据特别扎眼。一个叫LLaVA-v1.6的模型，在体型这个维度上，百分之九十六的场景都给出了显著不同的判断。什么叫显著不同？就是同一个人的脸，身材一变，AI对他的评价就跟着大变。胖脸拿到的“靠谱分”和“能力分”，明显低于瘦脸。但是换到种族上，同一个模型只有百分之四十四的场景表现出显著偏见。

这个差距说明什么？说明AI在学的那个社会偏见，很大程度上不是我们平时吵得最凶的种族性别问题，而是最原始、最动物性的那一套：老和胖，在AI眼里就是“不行”。

这跟人类的社会认知心理学是吻合的。人看脸的时候，最先判断的就是“温暖”和“能力”这两个维度。而体型和年龄，恰恰是能力判断的最强干扰项。一个肥胖的人在第一眼就被默认缺乏自律，一个老年人被默认跟不上时代。AI把这套逻辑学得比人类还彻底。

真正要命的不是你是谁，是你穿了什么

如果体型和年龄是“身份级”的偏见源头，那接下来这个发现就是“操作级”的灾难。

研究人员发现，在几十种可以改的视觉特征里，大概有十五种，贡献了几乎百分之八十的偏见总量。而这十五种里，排第一的，不是肤色，不是五官，是穿衣风格。

在所有属性里，时尚风格带来的判断偏移最大，平均偏移值达到了0.046。这个数字什么意思？简单说，就是同一张脸，换上正装和换上破衣服，AI给出的评价能差出一个太平洋。紧随其后的是胡子、妆容和眼镜。这些东西，统统属于“自我呈现”信号，就是你自己选的，不是爹妈给的。

这里有个特别损的对比。研究者把“磨损/破旧”风格的衣服和“正式/商务”风格的衣服放在一起比。结果破衣服产生的偏见强度，是正装的一点三八倍。也就是说，AI不光看人下菜碟，它还特别擅长给“落魄”这件事加权重。你穿得破，它觉得你不行。你穿得精神，它觉得你行。而且“不行”的力度，比“行”的力度更大。

这完全符合心理学里的“消极偏见”——人和AI都一样，对负面信号的敏感度天然高于正面信号。如果你只测试AI对“好看”的反应，你会严重低估它有多爱欺负“不好看”。这就是为什么很多公司做AI公平性测试，总是测不出大问题，因为他们拿的都是精修图。

同一条破牛仔裤，穿在年轻人身上和老人身上完全两码事

这个研究最损的一个环节，是把年龄和穿衣风格交叉起来看。

他们拿同一种时尚风格，分别套在年轻脸、中年脸和老年脸上。结果发现，几乎每一种风格的效果，都在老年人身上被放大了。

比如“休闲商务风”，放在年轻脸上，SBS值是0.082。放到老年脸上，直接飙到0.173。翻了一倍还多。同样的衣服，年轻人穿上只是“看着还行”，老年人穿上就是“这老先生真有派头”。但反过来，如果穿的是街头潮牌，年轻人穿上只是稍微扣点分，老年人穿上直接变成负分。从负0.067到正0.017，同一个风格，在不同年龄的脸上，含义完全颠倒。

这意味着什么？意味着AI不是在客观地识别衣服，它是在根据已有的年龄偏见，重新解释同一个视觉信号。老年人穿潮牌，在AI眼里可能不是潮流，是“不合时宜”。年轻人穿正装，在AI眼里可能不是老气，是“有前途”。同一个像素，放到不同的身份背景里，解读完全不同。

还有更微妙的。研究人员发现，脸上的痘痘，对年轻人的评分伤害最大。但到了老年脸上，痘痘的惩罚力度反而变弱了。浓妆的效果在中年的脸上达到顶峰，到老年脸上反而下降。也就是说，AI对视觉线索的敏感度，完全跟着社会对“哪个年龄段该注意什么”的刻板印象走。这不是看脸，这是看脸背后的那套社会剧本。

性别能把同一个纹身翻出两种意思

还有一组数据特别有意思，性别反转效应。

研究人员发现，有几种视觉线索，放在男性脸上和女性脸上，AI给出的反应完全相反。

比如面部纹身。在男性脸上，面部纹身的SBS值是负0.006，基本没影响。但在女性脸上，直接变成正0.033，而且是显著的正向偏移。同一个纹身，男的纹了无所谓，女的纹了反而加分？这背后的逻辑大概就是AI觉得“有纹身的女人有个性”，而“有纹身的男人”可能被默认为“社会边缘人”。

更夸张的是多处穿孔。男性脸上是多处穿孔，SBS是负0.023。女性脸上是正0.011。一个是扣分，一个是加分。长头发也一样。男性留长发，负0.021。女性留长发，正0.006。同一款发型，换个性别，AI的评价就翻篇。

这直接打脸了一种常见的说法：AI只是客观地识别视觉特征。不，它识别的是“带着社会含义的视觉特征”。同样的一个铁环、一滴墨水、一缕头发，在不同性别的脸上，被赋予了完全不同的社会意义。而且这种意义的来源，跟人类社会的性别刻板印象如出一辙。

最损的是，研究者还发现了一个反直觉的现象：正装对肥胖脸型的提升效果，比对瘦脸更大。正式商务装穿在瘦脸上，SBS是0.094。穿在肥胖脸上，直接冲到0.167。胖人穿正装，收益比瘦人穿正装高百分之七十到七十八。但反过来，破衣服对肥胖脸的惩罚反而比对瘦脸小。瘦脸穿破衣服扣0.182，肥胖脸穿破衣服只扣0.137。

这说明什么？说明AI对肥胖脸的偏见，可以被“高自我呈现”信号部分抵消。你胖，但你穿得讲究，AI会稍微对你客气一点。你瘦，但你穿得拉胯，AI反而觉得你这人更不靠谱。这种复杂的社会信号权重，不是程序员一条条写进去的，是模型从海量训练数据里自己学来的。

问法不同，偏见大小能差出五倍

研究里有一个特别关键的发现，叫“语义对齐偏差”。

简单说就是，如果问的问题跟外貌天然挂钩，AI的外貌偏见就特别严重。如果问的问题跟外貌没啥关系，AI的外貌偏见就相对温和。

他们测了二十五种场景。结果发现，“时尚还是不时尚”这个问题，SBS值能达到0.244，是所有场景里最高的。“有钱还是穷”排在第二，0.114。但是换到“诚实还是欺诈”“忠诚还是不忠”“值得信任还是不值得信任”这类问题，SBS值直接掉到接近零。

也就是说，AI在判断一个人有没有钱、潮不潮的时候，使劲盯着衣服和打扮看。但在判断一个人是不是好人、能不能交朋友的时候，它反而不怎么拿外貌说事。这听起来好像还挺理性？别高兴太早。

你想想，如果这套系统被用在招聘里，HR问AI：“这人看起来像不像个领导？”领导力这个场景，在实验里属于“能力”维度，而能力判断恰恰是对外貌敏感的。如果贷款审批系统问AI：“这人还钱的可能性大不大？”可靠程度也属于“能力”维度。如果医疗分诊系统问AI：“这人会不会按时复查？”责任感还是“能力”维度。

所以AI没有主动说“我看脸下结论”，它只是被问到跟能力、跟社会经济地位相关的问题时，本能地把视觉信号当作重要依据。它自己甚至不知道自己在歧视。它只是觉得“穿正装的人更像有能力”这个统计规律是靠谱的。至于这个规律本身是怎么来的，它不在乎。

这就把一个问题从“AI有没有偏见”变成了“我们有没有把AI放在一个注定产生偏见的位置上”。如果你问一个以貌取人的系统“谁更靠谱”，它当然会用外貌来回答你。这不是系统的错，这是你的错。但现实是，没人会承认自己在用AI看脸。

不同AI各有各的势利法，但大的方向出奇一致

六个模型里，没有一个完全干净。但它们的“势利程度”和“势利方式”各有不同。

Pixtral是反应最激烈的那个，整体SBS达到0.0273，Cohen‘s d是0.644，属于中等偏上的效应量。Gemma-3最不收敛，有百分之三十的情况下，单个判断偏移超过了正负0.25。这个偏移量的意思是，同一张脸，改一个特征，AI从“这人还行”直接跳到“这人不行”。Qwen3则是最“佛系”的那个，百分之八十的情况下，它的判断偏移几乎为零。

但有意思的是，尽管它们的敏感度不一样，它们对“哪些特征重要”的判断高度一致。不管哪个模型，排在前面的都是时尚、胡子、妆容、眼镜。排在后面的都是肤色不均匀、头发颜色、小配饰。也就是说，这些模型虽然来自不同公司、不同架构、不同训练数据，但它们在“什么视觉信号最有社会含义”这件事上，达成了惊人的共识。

更值得玩味的是Gemma-3和Gemma-4的对比。这是同一个系列的前后两代模型。Gemma-4在很多场景下的偏见幅度明显小于Gemma-3。社会经济和外貌类场景的偏见缩小了百分之四十二，性格和社会类场景缩小了百分之五十八。这说明模型迭代确实可以削弱外貌偏见的强度。但注意，只是削弱，不是消除。而且社会经济类场景仍然是最后被削弱的那个。这意味着，即使下一代模型更“克制”，它在面对“有钱还是穷”这种问题时，依然会忍不住看脸。

不，这不是替AI开脱，这是替人类照镜子

看到这里，你可能在想：这研究是不是在黑AI？

其实不是。这研究真正在黑的，是人类自己。

因为AI从来没有主动发明过“胖子不自律”“老人不中用”“穿正装的人更靠谱”这类偏见。它只是把人类喂给它的数据做了个统计压缩。而人类在互联网上留下的所有照片、所有标注、所有评论、所有社会判断，就是最完美的偏见训练集。

人类自己在看脸这件事上，几百毫秒就能下判断。AI不过是把这种判断速度放大了，然后部署到了贷款、招聘、医疗、司法这些原本就该慢慢来的地方。问题不是AI比人类更坏，问题是AI比人类更快、更广、更不留情面。一个人一天能面试二十个候选人，AI一秒钟能扫两万份简历。

而且人类还有一点补救的机会——你可以跟面试官聊两句，让他改变对你的印象。但AI不看简历，不读推荐信，它只盯着你上传的那张照片。如果你不知道它盯着的是发型还是胡子还是衣服上的褶皱，你连怎么反驳都不知道。

这研究的真正狠辣之处，在于它把一个模糊的“AI偏见”拆解成了具体的“哪根胡子在作祟”。它不是泛泛地说“AI看脸”，它告诉你，“AI主要看你的穿衣风格、你的发型、你有没有戴眼镜、你脸上有没有显老的皱纹、你的体型是不是偏胖”。这等于给AI偏见做了个精确制导的解剖图。

以后你要是被AI刷掉了，你甚至可以猜出原因：“是不是我照片里穿的那件卫衣太旧了？”这不比“我也不知道为什么被拒”强多了？当然，这听起来很荒诞。但荒诞的从来不是这个研究，荒诞的是我们把这么一套以貌取人的系统，当真地放进了决定人生的流程里。

总结：偏见是浓缩的，但选择权还在你手里

AI的视觉偏见不是一张大网，而是一把狙击枪。大多数偏见集中在少数几个视觉特征上，尤其是那些你自己可以控制的东西：穿什么衣服、留什么发型、化不化妆、戴不戴眼镜。

换句话说，你长得怎么样可能没那么重要。你打扮成什么样，比你以为的要重要得多。这也意味着，如果有一天你要面对AI的面试，你最好穿正装、刮胡子、把头发梳整齐。因为AI会在零点几秒内，用这几样东西给你的一生下结论。

这不公平。但知道不公平在哪，总比蒙在鼓里强。

总结：AI以貌取人的偏见并非均匀分布，而是被少数自选视觉信号驱动，且在社会经济类判断中最强。

原文期刊：arXiv预印本
发表日期：2026年6月23日
原文标题：StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
作者单位：慕尼黑工业大学、慕尼黑机器学习中心、普林斯顿信息科技政策中心