股票预测神经网络和机器学习示例


本项目是使用样本股票数据的 Python 神经网络和 ML 股票预测方法示例。

ML 和 NN 方法和库的资料库,以及用于训练和测试的样本股数据。这些示例简单易懂,突出了每种方法的基本组成部分。示例还展示了如何在当前数据上运行模型,以获得股票预测结果。

对于对股票市场感兴趣的量化分析师或数据科学家来说,此存储库包含几种用于预测股票价格的流行机器学习和神经网络方法的简单工作示例。该存储库还包含示例股票数据,因此代码无需额外步骤即可启动。

机器学习方法包括:

  • * 梯度提升
  • * K 均值聚类
  • * 逻辑回归
  • * 随机森林
  • * 支持向量机

NN 示例都是几个流行库的前馈神经网络 (FFNN):

  • * PyTorch
  • * PyTorch Lightning
  • * Keras
  • * Tensorflow

至少,这些示例可以作为起点,让您摆脱样板,并允许您开发更复杂的方法。

P值排名
所有模型都在D.ATexample_data上进行了训练和测试, 以得出表现最佳的排名。低 p 值会奖励高精度和大量真阳性,意味着模型更稳健。PyTorch Lightning获得最佳 p 值。

选择 P 值作为衡量标准
精度 p 值是比较性能的方法。为什么要精确?投资时,您更关心您购买的股票的表现,而不是您决定不购买的股票。实际上,如果所有 50 个决策都有盈利退出(真正的积极因素),那么 10,000 个不购买决策(消极因素)并不像 50 个购买决定(积极因素)那么重要。

数据集
example_data是 D.AT 平台提供的数据示例。
数据集封装了标准普尔 500 指数 5 年的股票数据,分为每个 30 个交易日的间隔。每个段中的数据已使用将值除以段内最新数据点的方法进行标准化。数据集中的每一行代表一个特定的部分,提供特定交易日可用股票数据的快照。行被标记以指示股票在随后 10 个交易日内何时涨幅至少为 5%。

  • train.csv:5年中,包含前4年的数据。
  • test.csv:5 年中,包含最后一年的数据。
  • latest.csv:该文件包含所有上市股票最近交易日的数据。train虽然它缺少标签(因为这些标签与未来事件有关),但每一行都保持与和文件中的特征向量结构相同的特征向量结构test 。这些行以股票代码开始,是确定具有良好业绩前景的股票的关键工具。

可通过 D.AT 免费下载可使用不同交易策略和特征工程选项定制的最新数据。