2024年11个人工智能重要发展

2025-01-03 3K banq

以下是对 2024 年人工智能主要发展的简要看法：

1. 推理时间计算
革命始于 OpenAI 的“学习推理”和o1模型，为模型扩展引入了新维度。虽然不是全新的（想想具有输入的多重增强或Tailoring 的CNN 推理），但它正通过o3、Gemini 2.0 Flash Thinking Mode和QwQ迎来 Sputnik 时刻。

2. SSM 成为主流
状态空间模型和 SSM-Transformer 混合模型发展势头强劲。最新进展包括Bamba和Falcon3-Mamba。

3. 真正的 LLM 竞争
该领域从 OpenAI 的主导地位发展到多个强大的参与者：Anthropic 的 Claude ，OpenAI 的 GPT ，谷歌的 Gemini ，以及Llama 、Gemma和Qwen等强大的开源模型。
个人说明：Claude 3.5 Sonnet 已成为我的首选模型。

4. 多模态大模型作为标准
如今，领先的大模型通常处理文本、图像和音频。GPT 、Gemini 、Claude 、Llama——[url=https://substack.com/redirect/2fbca42f-b8f1-428d-adb9-8ae03f40683a?j=eyJ1IjoiOHNwMzkifQ.ONoFZw4j3UXROklTVdqSSqu-Co8lOlbQYVKApis1Qxk]多模态[/url]已悄然成为常态，并未掀起革命性的大浪。

5. 代码生成的实际突破
用于编码的大模型确实变得有用。

个人经验：从对 Flutter 一无所知开始，使用 Claude/Copilot 和 GPT/Gemini 在一个周末内构建了一个带有 Python 后端的 Flutter 应用。我还大量使用它来完成典型的可视化和数据处理任务。在使用VSCode + Copilot或Colab 和 Gemini之后，没有 AI 辅助的编码感觉效率明显低下。

6. 视频时代的出现
OpenAI 的 Sora从发布到（部分）可用经历了漫长的过程，但这也导致出现了多种替代方案。该领域不再由单一领导者主导。

7. 神经网络获得诺贝尔奖
约翰·霍普菲尔德 (John J. Hopfield) 和杰弗里·辛顿 (Geoffrey Hinton) 获得诺贝尔物理学奖，大卫·贝克 (David Baker)、德米斯·哈萨比斯 (Demis Hassabis) 和约翰·江珀 (John Jumper) 获得诺贝尔化学奖。
除了奖项之外，神经网络还在改变科学研究，从量化的进步变成质的突破。

8. 开放模型的影响
在大量任务中，开源模型在功能和质量方面落后于商业领先者约 1-1.5 年。然而，随着 Llama、Gemma 和其他模型的更新迭代，它们继续取得令人瞩目的进步，不断突破现成模型的界限。

9. 世界模型
并不是说取得了重大突破，而且这个主题也不是新的（参见 David Ha 和 Schmidhuber 关于世界模型），但演变仍在继续。

从某种意义上说，视频生成模型就是世界模拟器，我特别喜欢Oasis Minecraft 世界生成，这是一个漂亮的概念证明。它如何影响游戏行业，这很有趣。我知道虚幻引擎之类的引擎包含更多内容，你仍然需要很多规则和确定性，但也许它可能是一种神经引擎混合体？就像游戏从本地游戏发展到云游戏和 Geforce Now 的流媒体一样，谁知道呢，也许有一天我们会看到“神经流媒体”。Voyager ：通过GPT-4玩《我的世界》（Minecraft）

值得一提的是：Danijar Hafner （ Dreamer 、PlaNet等的作者）提交了他的博士论文“通过世界模型实现智能”，Hinton 和 LeCun 是博士委员会成员。我太喜欢这个主题了！

10. KAN的突破
柯尔莫哥洛夫-阿诺德网络 (KAN)获得了显著的关注，社区发展迅速。不过，我还没有发现任何具体的杀手级应用。但仍然很有趣。

11. 人工智能代理(智能体)
代理无处不在，这是一个多方面的话题。去年的生成代理已扩展到 1000 人模拟，多代理框架（LangChain/LangGraph、AutoGen、CrewAI）正在积极发展，多代理工作流程自然适合许多实际流程。

代理和多代理代表了从具有快速工程的基本 LLM 到增强型 LLM（RAG、工具）及更高级别的进展。当前 LLM 的局限性 — — 有限的上下文窗口（更不用说有效的上下文窗口）、复杂的提示处理和冲突角色的处理 — — 都可以通过模块化代理系统进行管理。

它与 o1/o3 系列的测试时间计算故事部分相同——处理数据的时间更长——但现在有了一系列代理。权衡是一样的：质量与成本和时间。

GPT-8 会取代多代理吗？虽然它会提高能力，但关注点分离原则和“编写只做一件事并做好它的程序”的 Unix 哲学仍然很有价值。

多代理提供更好的所有权、变更管理、调试和可观察性等。即使有了 GPT-8，我们也可能会看到多超级代理。

2024年11个人工智能重要发展

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道