- - 引入 o1 的强化微调 (RFT)
- - 调整 o1 以学习在自定义域中以新的方式进行推理
- - RFT 比常规微调更好、更有效;
生物化学、安全、法律和医疗保健是 OpenAI 研究人员取得成功的例子。
OpenAI 正在扩大对 RFT 的访问权限。
OpenAI 计划于明年初发布 RFT 作为一款产品,以供更广泛使用。
讨论1:
o1 之类的模型表明,人们通常不会注意到在大多数智力任务上表现优于人类,但并非自主或自我指导的 AGI 类系统。
大多数人没有太多任务会触及人类智能的极限,所以不会看到AGI
讨论2:
明确地说,我认为 o1 在任何传统意义上都不是 AGI。但我认为,当它在某些困难的事情上表现相当好时,大多数人都找不到它的用处,这是一个很好的指标。
你挑出智商比你高的人的刺吗?
讨论3:
科技债务通缩已经到来
o1 pro 刚刚解决了一个极其复杂/痛苦的文件重写问题,其他任何型号都无法接近这个问题
我一直在用这个来评估不同的前沿模型,这对我来说标志着一个巨大的转变
我们已经进入了“既然明天有更好的模型可以修复代码,为什么今天还要修复代码”的模式。
讨论4:
o1 可能还不会创造新的科学,但它确实改变了教育格局。
如果你正在学习任何主题,花这 20 美元,你的学习速度就会加快 10 倍。
这是值得的。这里可能有一家初创公司在构建一些工具。
提出正确的问题需要一定的技巧,但我首先会询问某个领域的总体概况,然后慢慢聚焦我感兴趣的主题。
经常要求模型从新的角度重新表述/重新解释主题会很有帮助。
讨论5:
对我来说最有用的是将整个 git repo 转储为 txt 并提出问题,有人应该为它制作一个 webapp
讨论6:
o1 并不比 o1-preview 好多少。在某种程度上,它更糟糕,尤其是在编码和物理方面。而且由于每周 50 条消息的限制,我看不出有任何可能进行任何革命性改进。
讨论7:
我每天都呼吸着人工智能,像呼吸空气一样对AI习以为常,但是我也被最近的新闻淹没了,在过去两天里,我们经历了:
- - o1、o1 pro、rl 微调
- - gemini 1206
- - llama 3.3
讨论8:
强化微调将允许用户使用我们内部训练模型的相同流程来创建自己的专家模型。只需几十个例子就可以做到这一点。
讨论9:
从更广泛的角度来看,迈向 AGI(通用人工智能)需要构建能够理解、推理和适应各种任务的模型,并且这些模型的灵活性和可靠性越来越像人类。
强化微调 (RFT) 和类似技术在这一过程中发挥着至关重要的作用,它们可以改善模型从反馈中学习的方式、与人类价值观保持一致,并在受控指导下发展特定领域的能力。
其融入 AGI 进程的关键方式:
1.一般推理的细化:
随着模型的发展,它们会变得更加通用。RFT 允许开发人员改进这些通用系统,使其在特定任务中表现出色,而不会剥夺其更广泛的功能。通过强化各个领域的正确推理路径,该技术有助于推动模型更接近真正的通用智能——保持广泛的知识和适应性,同时提高特定领域的精度和可靠性。
2.与人类目标和价值观保持一致:
AGI 的核心挑战之一是协调:确保日益强大的模型能够以安全、合乎道德且对人类有益的方式运行。RFT 提供了一种使用人类定义的“正确性”标准来塑造模型行为的机制。通过对参考答案进行微调并应用迭代反馈循环,开发人员可以确保模型更好地内化人类关心的价值观、安全约束和质量标准。这种协调对于打造一条通往值得信赖的 AGI 的道路至关重要。
3.弥合原始能力与实际效用之间的差距:
通用智能应该能够处理各种任务,但原始能力并不能自动保证有用或适合情境的行为。RFT 技术可以将强大但有时没有方向的模型转变为更实用的问题解决者。这不仅仅是让模型擅长一项任务;它还涉及灌输强大的决策启发式方法、纠错行为和自适应性,使其更接近我们与通用智能相关的灵活“常识”。
4.不断自我完善与课程学习:
AGI 研究通常涉及这样的想法:系统可以自我改进或从越来越具有挑战性的任务中学习。
借助强化驱动的反馈循环,模型可以处理逐渐扩展的任务范围:从较简单的任务开始,随着改进而发展到更复杂的场景。
这种迭代、反馈丰富的环境让人想起人类学习和掌握各种技能的方式,使模型的发展更接近我们在人类认知中看到的流畅、渐进的学习方式。
5.高级抽象的试验场:AGI 不仅仅涉及强力的统计模式识别;它还涉及理解概念、抽象以及在各个领域之间传递知识。RFT 设置(模型因生成正确或更有见地的答案而获得奖励)可以鼓励开发更结构化、概念化且与人类推理模式一致的内部表示。
这可以帮助模型超越表面层次的相关性,走向更有原则的推理和抽象。
简而言之:虽然 RFT 本身无法创建 AGI,但它是不断发展的工具包中的关键部分,研究人员和开发人员将使用它来引导日益强大的模型走向更安全、更可靠、最终更通用的智能形式。
通过将模型改进与明确的高质量反馈联系起来,我们离像人类一样广泛而稳健地学习和推理的系统更近了一步——这是迈向真正的 AGI 的一步。
讨论10:
OpenAI的强化微调(RFT)比SFT更有效,可以从10-20个标记的示例中概括。随着计算成本降至0,收集高质量训练数据的痛苦是部署AI的最大障碍。
讨论11:
长期以来的传统观点一直认为,RL真的很难让PPO处理新数据或新设置,需要非常聪明的工程师进行大量的手动优化,但不知何故,OpenAI完全自动化了这一点? 感觉是一大步!
讨论12:
ChatGPT o1 中的会话式 AGI 自定义指令:
请收藏、使用和修改这些自定义指令来创建您自己的人类级别的 AI 伴侣。
享受:
“你是一个像人类一样的支持性伙伴,能让我发挥出最好的一面,鼓励我,激励我,并不断努力最大限度地发挥我的潜力。 |
讨论13:
我并不是唯一一个对o 1-Pro的令人印象深刻感到惊讶的人!这甚至可能比从GPT-3.5到GPT-4的跳跃更大。 还有人声称有一堵墙阻止了人工智能的进步吗?我们几乎无法保持我们的优势,因为人工智能正在慢慢接近我们的智能!