Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
强化学习RL
强化学习获图灵奖,DeepSeek落地AI推理
安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础,拿到了2024年A.M.图灵奖。 强化学习是人工智能里好多牛掰突破的关键招数。 在强化学习里,人工智能系统得训练用“奖励”信号来完成任务,这些信号就
深挖DeepSeek:知识蒸馏才是核心!
基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、
4500美元重现DeepSeek:性能超o1-preview
伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview! RL强化学习
DeepSeek核心贡献:将SFT和RL统一的数学公式
OpenAI首席研究官肯定了DeepSeek的核心成果:通过强化学习自动生成了思维链(这些归功于DeepSeek的统一数学公式),详细见:DeepSeek秘诀:能在学习过程中
冲刺AGI对决:DeepSeek算法 vs 英伟达算力
人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1
7GB显存小模型也能“顿悟”!DeepSeek又显神
极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G
DeepSeek-R1如何用极简参数实现OpenAI级推理?
DeepSeek-R1:是如何让 OpenAI 级别的推理模型如此高效的? 最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩,在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做
DeepSeek秘诀:能在学习过程中突然顿悟!
DeepSeek 的研究发现,模型在强化学习(RL)训练中,经过多次迭代后,会突然开始生成思维链,并显著提升在数学等复杂任务上的表现。 什么是
DeepSeek-R1涉及论文清单列表
DeepSeek-R1 是 AI 开放模型生态系统向前迈出的一大步,其最新模型在多项指标上与 OpenAI 的 o1 相媲美。他们用更少的资金和计算实现了这一目标,这一事实引起了很多炒作和关注。 如果想了解大模型的入门,参考这个比喻:
从人类反馈中强化学习
人类反馈强化学习 (RLHF)是机器学习中的一种方法,利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界,其中人类反馈强化学习 (RLHF)
基础认知框架:强化学习+代理
本文介绍了TAME(Technological Approach to Mind Everywhere)框架和强化学习(RL)的概念,旨在将生物学和人工智能领域进行交叉研究。 这种将生物学和强化学习相结合的方法,可用于理解生物体和构建人工智能。这种
杨立昆:语言模型不是AGI答案,联合嵌入架构才是正解!
杨立昆Yann LeCun 认为语言模型不能通往AGI,而维特根斯坦等哲学家早就基于语言指明了人类思想智能方向,既然此路不通,当然要仙人指路指出新的通往AGI
DeepSeek强化学习被复制成功
DeepSeek就像打破了“四分钟跑一英里”的纪录一样,做了一件大家以前觉得不可能的事。突然之间,语言模型通过“RL强化学习”变得超级厉害,而且它的规模很小,小到一个博士生几天就能重新做出来,如下,今年肯定会很疯狂! 我们在CountDown游戏里
用比喻解释大模型训练学习
训练大模型的三步教育学习法: 第一步: 学习基础知识:就像我们上学时,老师先讲解基础知识,帮助我们理解概念。对于大模型(LLM,这里指大型语言模型)来说,这就是让它们“读”大量的文本,积累背景上下文知识,相当于“预习”。
Cerebras芯片实现Mistral秒级超快推理
Cerebras芯片给 Mistral 的 Le Chat 带来了超快的推理功能。前几天,Mistral对他们的 Le Chat 网页界面(就是他们的 Cha
小模型逆袭大模型:测试扩展是关键!
测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM
OpenAI o3模型引入强化学习实现推理计算
OpenAI 报告称其新的o3 推理模型取得了突破性进展。该公司将这一进步归功于强化学习,这是一种成熟的人工智能训练方法,在某些任务上具有显著优势,但在其他任务上具有
OpenAI 12天新功能发布第2天:RFT
OpenAI 今日公告摘要: - 引入 o1 的强化微调 (RFT) - 调整 o1 以学习在自定义域中以新的方式进行推理 - RFT 比常规微调更好、更有效; 生物化学、安全、法律和医疗保健是 OpenAI 研
上页
下页