• “注意力就是你所需要的一切”背后Transformer的发展和灵感的(真实)故事。 注意力Attention: 一种出色的(依赖于数据的)加权平均运算。它是一种全居性的汇集,一种reduction汇
  • 以下是我的学习方法比以前快 5 倍的方法: 通过 OpenAI Deep Research 了解新领域 Grok-3 结合思考,针对特定论文进行详细(且快速!)问答 GPT-4.5 提出可能带来新见解的其他问题 真是令人惊奇的东西!
  • Polymarket上热门话题: 抗衰网红布莱恩·约翰逊 12 月份夜间平均 icon
  • Ilya 伊利亚演讲开拓了科学家的视野!在我看来,这是最重要的幻灯片,也是他今天在#NeurIPS2024鼓舞人心的演讲的重点当趋势稳定时。 icon
  • 传统观点:学术界提供理论基础,业界推动应用落地 是,但是实际上正好反过来,业界其实创新在前,学术界才确认理论。 最近,麻省理工学院、康奈尔大学、华盛顿大学和微软研究院的学术人员开发了一个叫“通过自我对弈进行强化学习”(简称RLSP)的系统。这个系统可以教那 icon
  • Transformer 是一种神经网络结构,现在特别火,主要用来做文本生成、机器翻译之类的任务。但在 Transformer 之前,大家用的是 RNN 和 LSTM 这种模型来处理序列数据(比如一句话)。不过,这些模型有个问题:它们不太擅长处理长距离的依赖关系。因为它们是按顺序处理数据的,很 icon
  • Michael Levin 等人发表了一篇有趣的论文。Michael Levin 长期致力于生物电、人工生命和许多其他生物学相关主题的研究。 icon
  • 由Pavlo在卡内基梅隆大学(CMU)的博客上发表的文章,回顾了2024年数据库领域的重要事件和发展。 文章涵盖了数据库许可证变更、Databricks与Snowflake之间的竞争、DuckDB的流行以及一些数据库相关的收购和资金筹集事件。 icon
  • 在认知科学的古典方法中,与在发展心理学中一样,存在着对表征和学习之间紧张关系的探讨。 一方面,纯粹的先天论者否认了学习,专注于描述已经存在详细的表征。 另一方面,经验主义者认为不需要结构化表征,学习(以及随后的推理)只是一个自下而上的学习统计关联的过程。 < icon
  • 训练大模型的三步教育学习法: 第一步: 学习基础知识:就像我们上学时,老师先讲解基础知识,帮助我们理解概念。对于大模型(LLM,这里指大型语言模型)来说,这就是让它们“读”大量的文本,积累背景上下文知识,相当于“预习”。 icon
  • 这篇文章通过非传统的方式探讨了Transformer模型的工作原理,强调了它们作为状态模拟器的角色,能够根据上下文动态调整预测状态。作者分享了自己通过实验和代码分析逐步理解模型的经验,指出温度参数如何影响输出分布,并展示了模型在ASCII艺术生成等任务中的泛化能力。文章鼓励通过实践和质疑来建 icon
  • 山姆·奥特曼认为:深度学习起作用了……人类发现了一种算法,它可以真正地学习任何数据分布,或者说,产生任何数据分布的潜在‘规则’。 如果这是真的,那么深度学习就是统计学作为一门科学的终结。 奥特曼原话: < icon
  • Peter Norvig 撰写的标题为“乔姆斯基和统计学习的两种文化”。该文章讨论了基于规则(符号)和统计(数据驱动)的语言学习和人工智能方法之间的差异,并通过诺姆·乔姆斯基的作品及其对人工智能的影响对这些方法进行了对比。 乔姆斯基 icon
  • 在数据工程领域,了解数据管道和ETL(提取、转换、加 icon
  • 为每个部分挑选了 5 篇“论文”: 第一部分:前沿大模型 icon
  • 将人工智能与 ChatGPT 等生成式人工智能技术等同起来,就像是把树枝误认为整棵树一样。 介绍在当今世界,人工智能已成为一个统称,几乎涵盖了所有能够实现智能的软件。就像最新的时尚潮流一样,将某样事物打上人 icon
  • 我们很高兴地宣布 PyTorch® 2.5 的发布!亮点: 此版本为 SDPA 提供了新的 CuDNN 后端,默认情况下,SDPA 用户在 H100 或更新的 GPU 上可以加速。 此外,torch.compile 的区域编译提供了一种减少 torch.compile icon
  • 因果关系中的一些归纳偏差是 P(t)P(a/t) != P(t/a)P(a),为何在深度学习中加入因果关系非常重要?因果关系和 icon