机器学习量化交易中四个陷阱

数据工程师、数据科学和硬件工程师组成的团队在开发机器学习交易算法时，在四个关键点上可能会出现陷阱：

- 在收集数据时，将使用新开发的算法
- 在算法的设计过程中，当一个团队被组成来解决一个问题时，假设的问题和解决方案，制定了一个算法，
- 在评估过程中，评估模型作为问题解决方案的性能
- 在部署阶段，系统必须盈利

这里列出了一小部分你可能会遇到的陷阱：

不与利益攸关方接触
忽视假设
缺乏监督
认为每个问题都需要通过算法来解决
统计偏差
大数据范式的局限性

许多量化通常严重依赖标准协方差来支持交易系统中实现的某些数值方法。

不过，也有更好的替代方法，比如最小协方差行列式：

-这种方法为估计中心倾向和离散矩阵提供了一种稳健的替代方法
-它使用的是样本协方差行列式最小的数据子集

唯一的缺陷是当数据维度超过所选子集的大小时无法使用（结果不可靠）。

还有更多选项需要考虑。其中包括

A) Ledoit-Wolf 估计器：

-为高维数据提供稳定的协方差矩阵估计值
-纳入收缩以提高准确性
-用目标矩阵平衡样本 cov，减少离群点的影响

B) 稀疏逆协方差：

-为稀疏数据结构量身定制
-捕捉潜在的变量依赖性
-尽量减少逆协方差矩阵中的非零条目，有利于中和特定资产

C)L1 惩罚方法：

-促进 cov 矩阵的稀疏性
-适用于大量变量，通过选择相关子集简化模型

D) 最大似然系数法：

-在特定的协方差结构下，寻找使数据似然最大化的参数
-假定多变量正态分布
-提供渐近无偏且有效的参数，在正态性和线性假设下最为理想