量化交易中可否使用强化学习RL？

本文讨论一些关于强化学习RL和量化交易的问题：

假设训练一个机器学习ML代理进行股票交易：一种方法是为系统提供许多优秀策略的范例，例如，关于是否在特定时间卖出特定股票的标注信息。这就是众所周知的监督学习模式。因为代理试图模仿好的策略，所以无法超越它们。

那么，如何才能找到优于专家的策略呢？
答案就是强化学习RL。

虽然 RL 是一种强大的人工智能方法，但它并不适合所有问题。
在量化交易中使用它之前，请注意以下问题：

RL 非常适合需要连续决策的问题（一系列相互影响的决策）

您已经拥有的数据量以及做出错误决策的成本可能会帮助您决定是使用在线还是离线 RL

有时，您的目标永远不会改变。在交易中，你总是希望收益最大化。这样的问题不以目标为条件，RL 表现不佳

如果您想编写一个程序来实现收益最大化，那么没有基于 RL 的特定模型可以使用（DQN、PPO、A2C......）。

结论：
避免使用强化学习RL预测价格。用它来支持其他交易过程，如参数优化或系统协调等。