AI进步靠的根本不是天才灵光一闪,而是海量新数据在撑腰!(粉笔头砸中打瞌睡的小明)
你们是不是觉得AI这十五年进步神速?特别是最近五年,ChatGPT都能帮你写情书了!但真相是——(突然压低声音)这些突破用的全是二十世纪的老古董算法!就像你奶奶的缝纫机突然能造火箭了,关键就在燃料升级了!
所谓的“摩尔定律”,真的存在吗?
文章里提到一个“AI摩尔定律”,说AI的能力像电脑芯片一样,每过一段时间就翻倍。作者对此表示怀疑。他觉得,虽然AI一直在进步,但那种能“改变世界”的、超级大的突破其实并不多见。
你看,就像我们打游戏,刚开始玩,天天都能发现新招数。但玩到后期,新招就越来越少了,更多的是练习和优化已有的招数。AI也是这样,每年都在变聪明、变快、变便宜,但那种“哇,原来AI还能这么玩!”的时刻,其实是比较罕见的。
作者列举了AI发展史上的四个里程碑式的突破,就像是AI的“四大发明”。
看这四个改变AI命运的里程碑:
1️⃣ 2012年AlexNet引爆图像识别——全靠ImageNet这个巨型图库:2012年,AlexNet这个模型在图像识别比赛中大放异彩。这就像是教会了AI“看图识物”,让它能认出照片里是猫还是狗。
2️⃣ 2017年Transformer横空出世——把整个互联网文字当饲料:2017年,谷歌提出了Transformer模型,这就像是给AI安上了一个超级强大的“大脑”,让它能读懂、理解和生成人类的语言。我们现在用的ChatGPT、DeepSeek都是基于这个技术。
3️⃣ 2022年RLHF技术——本质是让人类当打分工具人:2022年,OpenAI搞出了这个技术。简单来说,就是让AI学会“察言观色”,通过人类的反馈(比如告诉它哪个回答好,哪个回答不好),让它的回答更像人话,更符合我们的要求。这就像我们写作文,老师给你批改,你才知道哪里写得好,哪里写得不好。
4️⃣ 2024年推理模型——把计算器当裁判用:AI开始展现出推理能力,能像我们一样做一些逻辑思考和数学计算。
重点来了!这些突破的共同点是什么?
没错!每次都是找到了新型数据榨汁机!就像你老婆突然发现能偷看你微信,战斗力立刻飙升!
看到没?这四个大突破,其实都是“旧瓶装新酒”!
作者说,这些技术背后的“核心思想”,早在上世纪90年代甚至40年代就有了。
- 比如训练AI的“交叉熵”方法,可以追溯到上世纪40年代。
- 像RLHF这种“强化学习”的方法,也在90年代就出现了。
真正改变世界的,是“数据”这把钥匙!
那既然核心想法都是旧的,为什么AI还能突飞猛进呢?
作者给出了一个非常关键的答案:每一个大突破,都解锁了一个全新的“数据源”。
这就像你玩一个寻宝游戏。你手里有一把万能钥匙,但这把钥匙本身并不能让你找到宝藏。只有当你找到一扇新的、更大的宝库大门时,这把钥匙才能发挥作用。
- AlexNet的出现,解锁了ImageNet这个巨大的图片数据库。以前,我们只有零散的图片,现在有了成千上万的分类图片,AI可以尽情地学习。
- Transformer的出现,解锁了整个互联网!AI开始疯狂地“阅读”网上的所有文本,从维基百科到论坛帖子,无所不包。
- RLHF的出现,解锁了人类的“感觉”数据。AI可以从人类的标注中学习什么叫做“好的”回答,什么是“有礼貌”的,什么是“有用的”。
- 推理能力的提升,解锁了“验证器”,比如计算器和编译器。AI可以利用这些工具来验证自己的答案对不对,从而不断提升自己的逻辑能力。
文章里有一句话特别有意思:“AI的进步可能在ImageNet被收集起来的那一刻就注定了。” 这句话的意思是,当数据准备好了,AI的进步就只是时间问题了。有没有AlexNet,可能都会有别的模型来完成这个任务。
下一个大突破,会在哪里?
作者最后问了一个非常有意思的问题:既然新想法不重要,那AI的下一个“大招”会在哪里?
他觉得,很可能就是我们还没充分利用的新数据源。
- 视频数据 (YouTube):你敢相信吗?每分钟有大约500小时的视频被上传到YouTube!这简直是一个信息的海洋。视频里不仅有声音和文字,还有人物的表情、动作、物理规律等等。如果AI能把这些视频数据吃透,那它的能力会比现在强大得多。
- 机器人数据 (Embodied AI):就是让AI拥有身体,能像机器人一样感知世界。现在的AI就像一个只能在网上冲浪的人,但它没法感受到风、温度,也没法操作现实世界的物体。如果我们能让AI从机器人的传感器和摄像头中获取海量数据,那它就能真正理解我们生活的物理世界。
现在最值钱的数据是什么?视频!每分钟有500小时新视频上传到油管!这相当于把整个图书馆塞进洗衣机里搅!但现在的AI就像戴着老花镜看4K电影——根本处理不过来。
所以,作者最后总结道:如果想让AI继续进步,我们或许应该少花点时间去想新算法,多花点时间去寻找和利用新的数据源!
所以下次听说"AI重大突破",别被唬住!赶紧问:这次又榨取了什么新数据?是让AI看完了所有《五年高考三年模拟》?还是给机器人装了24K钛合金狗眼?(粉笔灰飞扬中竖起三根手指)记住三大真理:
1️⃣ 老算法+新数据=王炸
2️⃣ 数据集决定AI天花板
3️⃣ 找新数据比发明新算法重要10086倍!