"AI教父"尤尔根·施密德胡伯(Jürgen Schmidhuber):没拿图灵奖的生成式AI祖师爷
背景资料:
他是LSTM的发明人
- LSTM(长短期记忆网络) 是他和学生在1997年提出的,现在被广泛用于语音识别、翻译(比如谷歌翻译)、Siri等产品中,是20世纪被引用最多的AI论文之一。
他早在1990年代就搞出了“GAN”和“Transformer”的雏形
- GAN(生成对抗网络):他在1990年就提出了类似概念(“人工好奇心”),比后来2014年火爆的GAN早了20多年。
- Transformer:他在1991年就研究过类似架构(“快速权重控制器”),比谷歌2017年提出的Transformer早了几十年。
他特别爱“较真”AI历史
很多人吐槽他“爱抢功劳”,但其实他的核心观点是:“AI领域的很多重要贡献被忽略了,历史记录不准确”。他不仅为自己维权,还经常为更早的科学家(比如苏联、德国的研究者)争取应有的荣誉。
原文点击标题:
在上海的蒸笼天里,我们有幸采访了2024世界人工智能大会(WAIC)的贵宾——尤尔根·施密德胡伯教授。这位61岁的德国科学狂人戴着标志性黑色贝雷帽,操着德语口音英语,谈笑间抖出一堆颠覆认知的猛料。
▶▷"LSTM之父"的封神之路
1997年,他和学生霍赫赖特发表的"长短时记忆网络"(LSTM)论文,成为20世纪被引量最高的AI论文。这项技术被苹果Siri、谷歌翻译等产品广泛应用,在ChatGPT诞生前被称为"AI界最赚钱的发明"。但老爷子真正的开挂时刻要追溯到1990-1991年——
那会儿中国年轻人还在跳霹雳舞,他已经在慕尼黑工业大学搞出了生成对抗网络(GAN)雏形、线性Transformer前身和自监督预训练框架。这三个发明正好对应ChatGPT名字里的"GPT"三个字母!
《纽约时报》早称他为"AI之父",马斯克也在X上认证:"都是施密德胡伯发明的"。
2013年,国际神经网络学会(INNS)授予施米德胡贝亥姆霍兹奖。2016年,他荣获IEEE神经网络先驱奖,以表彰其“对深度学习和神经网络的开创性贡献”。
目前,他担任瑞士人工智能实验室IDSIA的科学主任,并领导沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的人工智能项目。他还参与了多家人工智能公司的运作。
▶▷图灵奖争议风暴
"深度学习三巨头"(杨立昆、辛顿、本吉奥)获图灵奖后,老爷子直接开炮:"他们该被撤销奖项!"他拿出堆积如山的论文证据,指控对方多次"借鉴"自己和其他科学家的成果却不注明出处。
"在数学界这么干早被踢出圈了,但机器学习领域还像个幼稚园。"
被问及是否嫉妒美国同行更富裕时,他大笑:"爱因斯坦也不阔绰,但人家是世纪人物!真理就像太阳,你可以暂时遮挡,但它永不消失。"(突然cue猫王名言)
以下是施密德胡伯采访概要:
比Transformer更好的东西
人工智能的起源可以追溯到1956年达特茅斯会议之前,该会议有时被认为是人工智能的开端,因为“AI”这个名称是在那时为一个当时已经很古老的领域创造的。
事实上,早在1914年,西班牙人莱昂纳多·托雷斯·克维多就设计了一个下棋自动机,当时国际象棋被认为是智能生物的专属领域。人工智能理论可以追溯到库尔特·哥德尔在1931年至1934年的工作,当时他确定了任何人工智能计算能力的根本局限性。
有人声称人工神经网络(NN,现已广泛使用)是一个相对较新的概念,出现于 20 世纪四五十年代。然而,“现代”神经网络的历史可以追溯到 200 多年前。大约在 1800 年,卡尔·弗里德里希·高斯和阿德里安-玛丽·勒让德提出了我们现在所说的线性神经网络,尽管他们称之为“最小二乘法”。他们使用由输入和期望输出组成的训练数据,并通过调整权重来最小化训练集误差,从而将其推广到未见过的测试数据上:线性神经网络!
这就是现在所谓的“浅层学习”。有些人认为更强大、更新颖的“深度学习”是21世纪的创新。其实不然。1965年,在乌克兰,Alexey Ivakhnenko 和 Valentin Lapa 首次研发出了能够学习的深度多层网络。例如,Ivakhnenko 1970年的论文详细描述了一个八层深度学习网络。遗憾的是,一些后来发表的、采用类似方法的出版物却没有注明这两位乌克兰先驱的姓名。我们的领域充斥着此类无意或故意抄袭的案例。
ChatGPT 中的 GPT 代表生成式预训练 Transformer。我们先来看看 GPT 和“生成式人工智能 (Generative AI)”中的 G。早在 1990 年,我就提出了现在被称为生成式对抗网络 (GAN) 的东西,最初我称之为“人工智能好奇心”。它涉及两个相互竞争的神经网络——一个具有自适应概率单元的生成器和一个受生成器输出影响的预测器。
预测器试图预测环境将如何对生成器的输出做出反应。它通过梯度下降来最小化自身的损失。然而,在极小极大博弈中,生成器试图最大化预测器正在最小化的部分。本质上,它的目标是通过生成令人惊讶的内容来“愚弄”对手。这个想法后来在 Deepfake 应用中得到了广泛的应用。
至于 GPT 中的“P”,它指的是预训练,这是我在 1991 年发表的另一个概念。我发现无监督或自监督的预训练可以极大地压缩序列,从而促进下游对长序列(例如非常长的文本)的深度学习。
然后是“T”,它代表一种名为 Transformer 的神经网络。“Transformer”这个名字是 2017 年在谷歌创造的。然而,早在 1991 年,我就以“快速权重控制器”或“快速权重程序员”的术语引入了该概念的变体。我的一个变体现在被称为“非规范化线性 Transformer”。它甚至比现代 Transformer 更高效,因为它可以线性扩展,输入规模增加一百倍,只需要增加一百倍的计算能力,而不像今天的“二次” Transformer,需要增加一万倍的计算能力。
为了预测下一代大型语言模型(LLM),我们首先要回顾一下第一代。谷歌和Facebook的首批LLM使用了我们的长短期记忆(LSTM)循环神经网络(RNN),它的起源也始于1991年,即我杰出的学生Sepp Hochreiter的论文。这篇论文不仅描述了前面提到的预训练(ChatGPT中的P)的实验,还引入了残差连接,这对于深度学习和处理长序列至关重要。我在1995年创造了LSTM这个术语,但名称并不重要,重要的是它的数学原理。
LSTM一直用于LLM,直到2010年代末,更容易并行化、因此对NVIDIA GPU等现代硬件有利的Transformer才占据了主导地位。
学术实验室和大公司之间总是存在比较:OpenAI 视频生成产品 Sora 的负责人之一 Aditya Ramesh 最近表示,学术界目前主要从事评估和测量,或者研究 AI 的可解释性,缺乏 GPU 等资源来做出更重大的贡献。顺便说一句,Aditya 没有博士学位,因为他本科毕业后就加入了 OpenAI。
这样的说法似乎有点天真,反映的是一种非常线性的思维方式:当前的趋势是通过越来越多的计算来扩展大型基础模型,既然有些人无法想象其他任何可能,那就让我们按照当前的趋势推断一下,其他一切都一定是无用的!
我最推崇那条古老的缩放定律:每5年,计算成本就会降低10倍(这条定律自1941年康拉德·楚泽在柏林完成第一台通用计算机以来就一直有效)。正是这条缩放定律,我们20世纪90年代的技术如今已应用于数十亿部智能手机。人工智能每十年的成本会降低100倍,每个人都会从中受益,而不仅仅是少数几家大公司。
只是,目前大模型(LLM)的规模化发展与像人类一样学习的通用人工智能(AGI)几乎毫无关联。婴儿是如何学习的?不是通过下载网络。它通过自主发明的实验来学习收集数据,从而改进其自适应神经世界模型,并利用这些模型进行规划。然而,所有这些与如今如此热门的法学硕士(LLM)几乎毫无关联。
公司必须最大化股东价值,而科学研究则追求前所未有的发现。别指望这两个截然不同的目标能够协调一致!
每个人都在人工智能的创造中扮演着自己的角色。
追溯特定神经网络的创始人。例如,卷积神经网络(CNN)之父是福岛邦彦,他于1979年在日本发表了CNN的基本架构。
1987年,在日本工作的德国人亚历克斯·韦贝尔(Alex Waibel)将卷积和反向传播相结合,这种方法由塞波·林奈曼(Seppo Linnainmaa)于1970年在芬兰发表,如今已被广泛用于训练神经网络。
张益唐(1988年)也在日本发表了第一个采用反向传播训练的二维CNN。因此,从1979年到1988年,我们所知的现代CNN起源于日本。
▶▷给中国年轻人的硬核建议
"别被大公司的GPU集群吓到!"他以自己1990年代的研究为例强调:"真正的突破往往来自小团队的天才创意。"对于当前火热的"暴力缩放"路线,他毒舌点评:"这就像婴儿靠下载全网数据学习?人类是靠自主探索认识世界的!"
聊到AI未来时,老爷子秒变科幻作家:"自我复制的机器文明将占领太阳系!它们会采矿、修工厂、造副本,最终带着人类文明的火种殖民银河系。"(温馨提示:他1970年代就预言这些时,连亲妈都觉得他疯了)
【暴言金句】
• "说学术界只能搞AI测评?这是线性思维的悲哀!"
• "我的不幸就是发明得太早——幸好没被人截胡。"
• "核弹比AI危险多了,某些人是不是该更新下恐惧版本?"
眼下他正领导沙特阿卜杜拉大学的AI计划,原因很实在:"瑞士虽好,但这里的人均科研经费堪比印钞机!"至于那个缺失的图灵奖?老爷子潇洒摆手:"重要的是,全世界都在用我们的算法。"
网友热评1:
在喷"这老头爱抢功劳"之前,请先啃完他的论文!
https://people.idsia.ch/~juergen/deep-learning-history.html
施密德胡伯教授面对质疑甩出三连暴击:
1️⃣ 论文时间戳说话
"所有争议在arXiv和期刊论文里都有铁证,从1990年GAN雏形到1991年Transformer前身,日期早于同行十几年。"(随手甩出二十篇带DOI的论文编号)
2️⃣ 科学界的规矩
"如果我‘重新发明’了别人的成果,按学术规范必须发更正声明并引用原作——但某些人三十年都没补过这篇作业!"(直接点名某图灵奖得主1998年论文与他1991年专利的重合部分)
3️⃣ 为整个领域较真
"我不光为自己维权,更为那些被埋没的欧洲实验室发声。乌克兰科学家1965年就搞出深度学习,现在谁记得?"(翻出苏联时期发黄的《控制论》期刊论文)
▶▷他究竟有多较真?
在个人网站建"AI历史纠错"专栏,用数学公式对比原始发明与"翻新版"差异
要求ACM撤销颁奖,因获奖者违反"必须引用原创"的伦理条款(引用ACM行为准则第6.2条)
连学生论文被漏引都会公开纠正:"这不是关于我,是关于科学记录的真实性"
【灵魂拷问】
"如果你觉得我在胡扯,请指出我哪篇论文的数学推导有误——科学只认公式不认头衔!"
网友热评2:
说这话可能要被喷成筛子,但我真的挺喜欢施密德胡伯这老哥!虽然我连他面都没见过,但看了他那么多访谈和论文,就觉得这人挺实在。是,我懂…总有人吐槽'哎呀他又来抢功劳了',可仔细想想根本不是这么回事!
这大叔较真起来连几百年前的祖宗都要帮——伽利略没算对的公式他要纠正,苏联时期被埋没的论文他翻出来致敬。哪是斤斤计较自己的那点成果啊?根本是在给整个AI界补历史课!
再说了,你查查资料就知道,他较劲的那些事十有八九还真占理。就像班上那个总挑教科书错误的学霸,虽然烦人…但每次考试证明人家确实没瞎说啊!
网友热评3:
施密德胡伯的困境:
他确实先提出了很多概念(比如GAN的对抗思想、Transformer的线性变体),数学上无可争议。
但他没推动这些技术在当时落地,原因可能是:
- 90年代算力不足,他的想法像“用蒸汽机设计火箭”——理论超前但实践受限。
- 学术推广能力不足:他的论文写作风格偏数学抽象,不如后来者(如Goodfellow、Vaswani等人)的工程化表达易懂。
后来者的优势:
Goodfellow的GAN(2014)、Google的Transformer(2017)之所以引爆行业,是因为他们:
- 选对了时代(GPU算力爆发+大数据成熟);
- 把理论“包装”成了可用的工具(比如GAN的简洁框架、Transformer的并行化优势)。
科学史上类似的案例很多(比如莱布尼茨vs牛顿的微积分之争),最终被记住的往往不是最早发明的人,而是最会推广的人。
老爷子较真某种程度上是对科学史“马太效应”的抗争——他试图证明:“如果当年大家认真读我的论文,AI革命可能提前10年”。
科学家分两种——“纯粹理论家”和“工程推动者”,他显然属于前者。
NIPS 2016那场辩论:本质上是一场“科学史该由谁定义”的战争。
网友热评4:
我认为他确实理解了自己工作的意义以及硬件的重要性。他的团队率先将模型移植到GPU上。
但个人情况很重要。他被困在卢加诺的IDSIA,一个规模相对较小、资金也不太充足的学术机构。
他本可以在工业领域做得更好,拥有大量的资金、更多的员工和完善的基础设施。
归根结底,模型的重要性远不及基础设施。Transformer 并非那么重要,其他架构(例如深度 SSM 或 xLSTM)也能达到类似的效果。
网友热评5:
LSTM与Transformer的最大区别就是LSTM无法扩展伸缩,无法随着硬件规模扩大,计算能力增强。
为何scaling扩展性是工程第一要则?因为硬件是可以砸钱的,如果你的软件过分学术化,无法让资本参与游戏,属于一种闭关锁国的自嗨游戏。
为何谷歌催生了 Transformer?是因为谷歌创建了万物生长的环境,而老爷子在瑞士没有这样的环境,即使个人再聪明伟大又奈何?
作为组织,营造有机生长的环境Context,治大国如小鲜。自下而上(有机生长)的环境是持续创新发展的核心Context! 天时地利人和(hè第四声):个人附和 天时地利(Context),顺势(Context)而为!