• 极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G icon
  • 人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1 icon
  • 基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、 icon
  • DeepSeek-R1:是如何让 OpenAI 级别的推理模型如此高效的? 最近我们都看到了关于 DeepSeek-R1 的讨论。它取得了一些惊人的成绩,在推理任务中经常匹敌甚至超过 OpenAI 的 o1 系列……而且它只用一小部分参数和低得多的成本就做 icon
  • 安德鲁·巴托和理查德·萨顿因为搞出了强化学习的理论基础,拿到了2024年A.M.图灵奖。 强化学习是人工智能里好多牛掰突破的关键招数。 在强化学习里,人工智能系统得训练用“奖励”信号来完成任务,这些信号就 icon
  • DeepSeek-R1 是 AI 开放模型生态系统向前迈出的一大步,其最新模型在多项指标上与 OpenAI 的 o1 相媲美。他们用更少的资金和计算实现了这一目标,这一事实引起了很多炒作和关注。 如果想了解大模型的入门,参考这个比喻: icon
  • 杨立昆Yann LeCun 认为语言模型不能通往AGI,而维特根斯坦等哲学家早就基于语言指明了人类思想智能方向,既然此路不通,当然要仙人指路指出新的通往AGI icon
  • 伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview! RL强化学习 icon
  • DeepSeek就像打破了“四分钟跑一英里”的纪录一样,做了一件大家以前觉得不可能的事。突然之间,语言模型通过“RL强化学习”变得超级厉害,而且它的规模很小,小到一个博士生几天就能重新做出来,如下,今年肯定会很疯狂! 我们在CountDown游戏里 icon
  • Cerebras芯片给 Mistral 的 Le Chat 带来了超快的推理功能。前几天,Mistral对他们的 Le Chat 网页界面(就是他们的 Cha icon
  • 我们研究了小型开放权重语言模型是否可通过强化学习达到顶尖推理水平。使用GRPO方法和精选参数训练Qwen模型后,性能显著提升,接近前沿水平且成本更低。仅需16个训练示例,性能提升10-15%。我们分享了任务设计、超参数选择和基于torchtune的训练方法,所有资源免费开放。点击标题见原文。 icon
  • OpenAI 报告称其新的o3 推理模型取得了突破性进展。该公司将这一进步归功于强化学习,这是一种成熟的人工智能训练方法,在某些任务上具有显著优势,但在其他任务上具有 icon
  • 训练大模型的三步教育学习法: 第一步: 学习基础知识:就像我们上学时,老师先讲解基础知识,帮助我们理解概念。对于大模型(LLM,这里指大型语言模型)来说,这就是让它们“读”大量的文本,积累背景上下文知识,相当于“预习”。 icon
  • 人类反馈强化学习 (RLHF)是机器学习中的一种方法,利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界,其中人类反馈强化学习 (RLHF) icon
  • 测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM icon
  • OpenAI 今日公告摘要: - 引入 o1 的强化微调 (RFT) - 调整 o1 以学习在自定义域中以新的方式进行推理 - RFT 比常规微调更好、更有效; 生物化学、安全、法律和医疗保健是 OpenAI 研 icon