71位准程序员被Copilot“PUA”10天:信任飙升又暴跌


71名高年级CS学生在2.3万行Python遗产代码中使用Copilot 10天,信任曲线先升后跌,最终集体达成共识:AI再强,也离不开懂行的人。

来自加州大学圣地亚哥分校(UCSD)和北卡罗来纳州立大学的一支六人教学研究天团,把71名即将踏入职场的高年级CS学生扔进一个23500行的Python遗产项目里,让他们和Copilot面对面硬刚10天,最后竟然集体悟出一句灵魂暴击:“没我它不行!”

为什么这六位六人教学老炮要搞这么一场实验?因为现在整个行业都疯了。面试不再问你会不会写代码,而是问你会不会用Copilot。

但问题是,如果你过度信任AI,生产环境可能直接变成灾难片;如果你完全不信,KPI又跑不过那些靠AI提效的同事。学生到底该怎么拿捏“信”与“不信”的火候?没人教,也没人系统研究过。于是这群教授决定:不如让学生真刀真枪上战场,看看信任这玩意儿到底怎么变。

实验地点设在UCSD一门高阶软件工程选修课上,课程主题正是“棕色地带开发”——即在庞大的、未经设计的旧代码里打怪升级。选中的项目是Python标准库中的idlelib,它实现了IDLE这个给新手用的轻量级IDE。别看它简单,代码量却高达23500行,分布在128个文件中,还包括10000行测试代码。随便翻两页,都能闻到2003年的代码尘。

参与实验的71名学生,平均年龄在大三到大四之间,多数即将毕业进入业界。他们的Copilot使用经历可谓五花八门:
49%的学生课前从未用过Copilot,纯纯小白;
42%只拿它写过“Hello World”级别的脚本;
12%曾用它读大型代码,但没动手改过;
仅有极少数7%的学生尝试过在遗产项目里使用AI,堪称稀有国宝。

整个实验节奏安排得张弛有度。先是80分钟的“极速直播课”:
前10分钟,老师用简单语言科普NLP基础概念,比如上下文、训练数据、token概率分布;
接着30分钟演示Copilot的炫技功能,从行内注释生成代码,到Copilot Chat支持文件上下文,再到/expalin、/fix、/docs等魔法命令;
最精彩的是中间15分钟,老师故意让Copilot生成有bug的代码,让学生亲眼看到它“翻车”,弹幕瞬间刷屏“就这?”;
最后15分钟,学生自己用Copilot完成一个微小功能修改,亲身体验它的威力与局限。

然后进入重头戏——为期10天的个人项目。任务是给IDLE添加“跳转到定义”(Go to Definition)功能。在VS Code这种现代IDE里,这功能稀松平常,但要在IDLE这种轻量级遗产项目里实现,挑战不小。学生需要:找到右键菜单的定义位置、添加新菜单项、编写跳转逻辑、绑定事件、还要处理各种边缘情况。看似只需30行新代码,但每一步都得深入理解现有架构,堪称遗产代码的地狱迷宫。

整个过程中,研究团队安排了三次信任问卷:课前、课后、项目完成当天。问卷基于经典信任量表改编,包含6个核心问题,比如“我相信Copilot的输出”“它输出的质量等同于高能力程序员”“我理解它的行为逻辑”等,用1到5分李克特量表打分。此外,每次调查都附带一道开放题,让学生自由吐槽,结果情感浓度爆炸,金句频出。

数据出炉后,信任曲线比比特币K线还刺激。
49.3%的学生在课后立刻“路转粉”,信任飙升;
但到了项目结束,这波人中有40%又“粉转黑”,直言“被AI耍了”。
剩下的人则进入冷静期,不再盲目吹捧,也不一棒子打死,而是把AI当作工具。

细分维度上,S3条目“我理解Copilot下一步会做什么”在课后显著提升(p<0.001),说明10分钟的NLP科普立竿见影;
而S2条目“它输出≈大神手写”在项目后也显著上升,学生反馈:“它有时比我室友还聪明,但有时连print都写错,我裂开了。”
个人偏好(S5)则呈现经典的“热恋—下头”曲线。

有意思的是,新手和老手的态度差异肉眼可见。没用过Copilot的学生,60%在课后信任上升;而有经验的学生只有38%再被圈粉。虽然统计上不显著,但开放题里清一色是“见过世面就是难骗”“之前被坑过,不敢再信”。

学生的原声吐槽更是精彩纷呈。
课前印象如:它曾给我生成递归爆栈,我对它的信任像头发一样日渐稀少。
课后惊喜包括:原来能@workspace把整个目录喂给它,瞬间感觉AI开了天眼
老师讲了token概率,我悟了,它不是神,只是统计狂魔。
项目翻车现场更是惨烈:“我让它找右键菜单在哪,它指到火星,最后我自己grep赢麻了
它写的goto骨架OK,但边缘case全是我熬夜debug,合着我是它免费QA?

但最让人拍案叫绝的,是那些“人间清醒”发言:“它不是替代品,是脚手架,得我先会盖房,它才能帮我刷墙。”这句话道出了本次实验的核心结论:AI不能取代程序员,但能放大程序员的能力——前提是,你得先有能力。

从学术角度看,研究团队用MATCH模型对现象做了深度解构。
Ability(能力)维度上,Copilot在代码生成和上下文理解上得分70,偶尔抄错行;
Benevolence(善意)上,学生普遍认为GitHub没有恶意,但也没少挖坑;
Integrity(正直)则体现在Transformer架构本身——它不撒谎,只是过度自信。
Trust Affordance(信任外挂)方面,行内代码插入、/explain命令、透明度按钮(显示参考文件)都是关键信任构建点。
而Trust Judgment(信任判断)则分两类:系统式(逐行review、diff高亮)带来安全感,启发式(看AI自信就accept)则容易社死。

基于这些发现,研究团队提炼出四条教学铁律,堪称AI时代软件工程教育的黄金准则。

第一,任务难度必须拉满。只让学生用AI写“打印三角形”根本测不出真实信任,必须扔进遗产代码这种复杂环境,让他们自己踩坑。只有亲身体验过AI的局限,才能建立理性信任。

第二,传统技能绝不能丢。读码、调试、单元测试这些基本功,就像程序员的徒手健身,必须天天练。AI再强,也扛不住需求变更的暴击,学生得先成为1.0版本的“人肉编译器”,才有资格驾驭AI。

第三,NLP速成课必须安排。10分钟讲清“上下文+概率+token”的原理,学生立刻明白“AI不是通灵,只是算得猛”,期望管理一步到位。这种认知对冲,能有效防止盲目信任。

第四,功能演示要炫。/explain、/fix、/docs这些魔法命令,老师必须现场连招打一遍。学生看到“还有这种操作?”,信任值瞬间回血。这不仅是技术教学,更是信任基建。

当然,研究团队也坦诚指出了实验的局限。
第一,只测了态度,没测行为。学生嘴上说“不信”,手指可能诚实地狂按Tab。下一阶段计划引入眼动仪、键盘记录甚至脑电波,看真实行为是否与态度一致。
第二,样本单一,全是Python背景的学生,在C++、Java或前端项目中,信任曲线可能完全不同。
第三,时间太短,10天只能体验“热恋期”,真正的“七年之痒”得追踪到他们毕业进厂。
第四,存在教师光环效应——老师一句“业界都在用”,等于官方背书,学生信任值直接+20%,但现实中老板可没空给你灌鸡汤。

最后,学生还给后来人留下了三条血泪忠告:“别在deadline前第一次用Copilot,你会想砸电脑。”“先自己画调用图,再让它填空,顺序反了就是灾难片。”“把它当猫撸,顺毛就给你卖萌,逆毛就给你一手爪痕。”

收尾高能,主播敲黑板:信任不是玄学,而是肌肉记忆。你得先自己硬,AI才能飞。把legacy code当成健身房,把Copilot当成私教,练出八块腹肌般的debug直觉。未来无论AI怎么升级,你都能淡定回一句:“小样,我懂你。”

这场10天的信任实验,最终没有诞生神,也没有制造恐慌,而是让71位准程序员认清了一个朴素真理:AI是工具,人是主体。技术再炫,也绕不开“懂行”二字。这不仅是给学生的忠告,更是给整个行业的清醒剂。