杨立昆Yann LeCun 认为语言模型不能通往AGI,而维特根斯坦等哲学家早就基于语言指明了人类思想智能方向,既然此路不通,当然要仙人指路指出新的通往AGI道路,以带领Meta下次突破。
在2025年2月10日和11日在巴黎举行的人工智能峰会上,杨立昆阐述了通过摆脱目前 AI 研究中流行的某些架构和方法,向人类级人工智能 (AGI) 迈进的愿景。下面是对所提到的关键架构和方法的解释:
1.生成模型
生成模型是一种机器学习系统,它学习数据的底层模式以生成新的类似数据。示例包括 GAN(生成对抗网络)、VAE(变分自编码器)和扩散模型。这些模型预测像素或标记空间中的数据,通常侧重于重建缺失的细节。
杨立昆主张放弃这些模型,转而采用联合嵌入架构,这种架构侧重于学习抽象表示和语义关系,而不是生成低级细节,从而有可能避免过度拟合不相关特征等问题[2][8][19]。
2.概率模型
概率模型使用统计推断根据概率进行预测,考虑到数据的不确定性。例子包括贝叶斯网络和隐马尔可夫模型。
杨立昆 建议用基于能量的模型 (EBM)取代它们,EBM 定义了一个标量能量函数来表示输入和输出之间的兼容性。EBM 更灵活,可以统一概率和非概率方法,同时避免与概率方法相关的一些计算挑战[5][6][16]。
3. 对比方法
对比学习侧重于通过最小化正对(相似数据)之间的距离和最大化负对(不相似数据)之间的距离来区分相似和不相似的数据点。虽然对比学习对于表征学习很有效,但它在计算上可能很昂贵,并且在高维数据上扩展性较差。
杨立昆 提倡使用正则化方法,以最小化表征空间中低能量区域的体积,从而有可能简化训练并提高可扩展性[43][62][64]。
4.强化学习(RL)
强化学习通过与环境的反复试验来训练代理,优化操作以最大化累积奖励。虽然强化学习在游戏和机器人等领域取得了成功,但它可能存在样本效率低下的问题,并且难以进行长期规划。
杨立昆 建议改用模型预测控制 (MPC),它涉及使用系统动态的预测模型在有限的时间范围内优化操作。对于某些应用来说,MPC 更具确定性和效率,但缺乏强化学习对高度动态环境的适应性[53][55][74]。
重点
杨立昆强调将重点放在诸如联合嵌入预测架构 (JEPA) 之类的架构上,这种架构优先考虑语义抽象而不是像素级生成,基于能量的建模以提高灵活性,正则化以提高效率,以及用于规划任务的模型预测控制。
他的挑衅性言论 — — “如果你对人类级别的人工智能感兴趣,就不要攻读大语言模型” — — 反映了人们对大型语言模型实现 AGI 的能力的怀疑,因为它们依赖生成方法而不是构建强大的世界模型[14][19][64]。
网友:
1、杨立昆属于第四阵营:AGI 将源自杨立昆的点子,而非其他可能的来源。
2、他的观点是不是在说:这样做就像是在我们还没造出F1赛车引擎之前,就逼着我们去养马配种?我觉得这个比喻从抽象的角度来看挺有意思的,但我觉得它并不能很好地解释“蛮力”这个概念。
如果我们把养马理解成通过自然选择慢慢进化的过程,那么确实,经过几十亿年的时间,我们最终得到了F1引擎这样的高科技。
所以,虽然从马到F1引擎听起来很离谱,但我们确实通过一个不断优化的过程,从单细胞生物进化成了F1引擎这样的复杂存在。
我们有理由相信,通过这种方式“蛮力”实现人工通用智能(AGI),和人类意识在几十亿年间慢慢出现的过程,其实没什么本质区别。
其实大模型是马车。当然,从抽象的角度看,这是迈向汽车的一步,但绝对不可能达到汽车的水平,那就是用蛮力强迫马匹。
3、人们总是说大语言模型(LLM) 从根本上来说存在局限性,而基于大模型的人工智能 (AI) 却在不断进步,而其他所有一般人工智能研究领域都已经原地踏步 50 年了。