2024年11个人工智能重要发展

以下是对 2024 年人工智能主要发展的简要看法:

1. 推理时间计算
革命始于 OpenAI 的“学习推理”和o1模型,为模型扩展引入了新维度。虽然不是全新的(想想具有输入的多重增强或Tailoring 的CNN 推理),但它正通过o3、Gemini 2.0 Flash Thinking Mode和QwQ迎来 Sputnik 时刻。

2. SSM 成为主流
状态空间模型和 SSM-Transformer 混合模型发展势头强劲。最新进展包括BambaFalcon3-Mamba

3. 真正的 LLM 竞争
该领域从 OpenAI 的主导地位发展到多个强大的参与者:Anthropic 的 Claude ,OpenAI 的 GPT ,谷歌的 Gemini ,以及Llama 、Gemma和Qwen等强大的开源模型。
个人说明:Claude 3.5 Sonnet 已成为我的首选模型。

4. 多模态大模型作为标准
如今,领先的大模型通常处理文本、图像和音频。GPT 、Gemini 、Claude 、Llama——[url=https://substack.com/redirect/2fbca42f-b8f1-428d-adb9-8ae03f40683a?j=eyJ1IjoiOHNwMzkifQ.ONoFZw4j3UXROklTVdqSSqu-Co8lOlbQYVKApis1Qxk]多模态[/url]已悄然成为常态,并未掀起革命性的大浪。

5. 代码生成的实际突破
用于编码的大模型确实变得有用。

个人经验:从对 Flutter 一无所知开始,使用 Claude/Copilot 和 GPT/Gemini 在一个周末内构建了一个带有 Python 后端的 Flutter 应用。我还大量使用它来完成典型的可视化和数据处理任务。在使用VSCode + CopilotColab 和 Gemini之后,没有 AI 辅助的编码感觉效率明显低下。

6. 视频时代的出现
OpenAI 的 Sora从发布到(部分)可用经历了漫长的过程,但这也导致出现了多种替代方案。该领域不再由单一领导者主导。

7. 神经网络获得诺贝尔奖
约翰·霍普菲尔德 (John J. Hopfield) 和杰弗里·辛顿 (Geoffrey Hinton) 获得诺贝尔物理学奖,大卫·贝克 (David Baker)、德米斯·哈萨比斯 (Demis Hassabis) 和约翰·江珀 (John Jumper) 获得诺贝尔化学奖
除了奖项之外,神经网络还在改变科学研究,从量化的进步变成质的突破。

8. 开放模型的影响
在大量任务中,开源模型在功能和质量方面落后于商业领先者约 1-1.5 年。然而,随着 Llama、Gemma 和其他模型的更新迭代,它们继续取得令人瞩目的进步,不断突破现成模型的界限。

9. 世界模型
并不是说取得了重大突破,而且这个主题也不是新的(参见 David Ha 和 Schmidhuber 关于世界模型),但演变仍在继续。

从某种意义上说,视频生成模型就是世界模拟器,我特别喜欢Oasis Minecraft 世界生成,这是一个漂亮的概念证明。它如何影响游戏行业,这很有趣。我知道虚幻引擎之类的引擎包含更多内容,你仍然需要很多规则和确定性,但也许它可能是一种神经引擎混合体?就像游戏从本地游戏发展到云游戏和 Geforce Now 的流媒体一样,谁知道呢,也许有一天我们会看到“神经流媒体”。Voyager :通过GPT-4玩《我的世界》(Minecraft)

值得一提的是:Danijar Hafner ( Dreamer 、PlaNet等的作者)提交了他的博士论文“通过世界模型实现智能”,Hinton 和 LeCun 是博士委员会成员。我太喜欢这个主题了!

10. KAN的突破
柯尔莫哥洛夫-阿诺德网络 (KAN)获得了显著的关注,社区发展迅速。不过,我还没有发现任何具体的杀手级应用。但仍然很有趣。

11. 人工智能代理(智能体)
代理无处不在,这是一个多方面的话题。去年的生成代理已扩展到 1000 人模拟,多代理框架(LangChain/LangGraph、AutoGen、CrewAI)正在积极发展,多代理工作流程自然适合许多实际流程。

代理和多代理代表了从具有快速工程的基本 LLM 到增强型 LLM(RAG、工具)及更高级别的进展。当前 LLM 的局限性 — — 有限的上下文窗口(更不用说有效的上下文窗口)、复杂的提示处理和冲突角色的处理 — — 都可以通过模块化代理系统进行管理。

它与 o1/o3 系列的测试时间计算故事部分相同——处理数据的时间更长——但现在有了一系列代理。权衡是一样的:质量与成本和时间。

GPT-8 会取代多代理吗?虽然它会提高能力,但关注点分离原则和“编写只做一件事并做好它的程序”的 Unix 哲学仍然很有价值。

多代理提供更好的所有权、变更管理、调试和可观察性等。即使有了 GPT-8,我们也可能会看到多超级代理。