强化学习RL

     

从人类反馈中强化学习

53 3K

人类反馈强化学习 (RLHF)是机器学习中的一种方法,利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界,其中人类反馈强化学习 (RLHF)占据了中心舞台,在机器智能和人类.

基础认知框架:强化学习+代理

64 4K

本文介绍了TAME(Technological Approach to Mind Everywhere)框架和强化学习(RL)的概念,旨在将生物学和人工智能领域进行交叉研究。这种将生物学和强化学习相结.

本月三篇大模型论文简介

167 4K

本月重点讨论三篇论文,它们解决了大型语言模型 (LLM) 的三个不同问题类别:减少幻觉(本周末这里讨论的热门话题);增强公开可用的小型模型的推理能力;加深我们对变压器架构的理解,并有可能将其简化。减少.

基于语境上下文学习推理是AI下一步大事情

81

对真正的超级人工智能(ASI)或类人人工智能(AHI)的看法。表面上,定义已经改变,但目标应该是深刻而又极其简单的。这个目标应该是“hello world”,让AI从说hello开始,正如人类婴儿刚开.

新研究:AI加速复杂上下文中的问题解决

92

研究人员开发了一种新的数据驱动的机器学习技术,可以加速用于解决复杂优化问题的软件程序,这些问题可能有数百万个潜在的解决方案。他们的方法可以应用于许多复杂的物流挑战,例如包裹路线、疫苗分发和电网管理。问.

DeepMind:AI代理可直接学习复制人类

95

来自谷歌 DeepMind 的机器学习研究团队声称:已经证明人工智能可以通过类似于人类和其他动物的社交学习的过程来获取技能。本周在同行评审的开放获取期刊《自然通讯》上发表的一篇论文表示,该团队能够使用.

Q -star:思想树推理、过程奖励模型和增强合成数据?

237

这篇文章讨论了 Q -star的概念,这是 OpenAI 的一种新方法,被认为是通用人工智能的突破。它假设 Q-star使用思维树推理来搜索语言步骤,将它们表示为一棵树,其中每个节点都分配了一个值。这.

人工智能算法A*与Q*比较

183

A* vs. Q*两个AI算法比较:A* 和 Q*:虽然它们在命名上有表面的相似之处,但这两种算法却有着不同的目的、方法和应用。让我们深入对比分析 A* 和 Q*,了解它们在人工智能中的独特特点和用途.

量化交易中可否使用强化学习RL?

77

本文讨论一些关于强化学习RL和量化交易的问题:假设训练一个机器学习ML代理进行股票交易:一种方法是为系统提供许多优秀策略的范例,例如,关于是否在特定时间卖出特定股票的标注信息。这就是众所周知的监督学习.

Data2vec:第一个适用于语音、视觉和文本等多领域的高性能自监督算法

1773 1

自我监督学习推动了人工智能的许多重大进展,所谓自我监督学习:机器通过直接观察环境进行学习,而不是通过标记的图像、文本、音频和其他数据源进行明确的教导;虽然人们也似乎以相似的方式学习,但是学习的方式存在.

Facebook如何使用自我监督学习检测仇恨文字和图片?

816 3K

预训练语言模型 XLM之类的自我监督正在加速在Facebook上的应用:包括 主动检测仇恨言论。我们已经部署XLM-R,该模型利用了我们的 罗伯塔 架构,以改善我们在Facebook和Instagra.