机器学习教程

ML算法对量化交易规则的处理

23-11-04 97

ML算法采用剪枝技术，通过排序、抽样和分类，去除多余或不重要的交易规则。这一过程的结果可分为四种情况。假设 "U "是交易者的数据集，"A "是发现的交易规则集：符合规则：如果 A_i 的前因和后果.

大规模实时机器学习处理架构简介

23-10-23 79 6K

Netflix 是迈向实时数据基础设施的公司的典范，这使得 Netflix 能够通过多种方式改善用户体验，例如改进“Trending Now”主屏幕上的推荐、快速测试生产中的更改以及最大限度地减少 .

股票量化分析中的相似性搜索

23-10-13 249

相似性搜索，包括确定两个或多个时间序列之间存在的相似程度，是某种交易系统中的基本任务。典型应用包括检测： - 图案 - 趋势 - 异常 - 集群下面是一些常用的技巧： - 欧氏距离 - 动态时间规整.

美国国防研究所借助人工智能实现战场决策

23-09-30 155

美国国防高级研究计划局 (DARPA) 正在资助一个名为“用于规划、战术、实验和弹性的战略混沌引擎”（SCEPTER）的项目，以开发能够穿透战争迷雾的人工智能技术。该机构押注更先进的人工智能模型将简化.

Boolformer简短介绍

23-09-26 123

虽然传统深度神经网络等机器学习技术在感知任务上取得了显著的成功，但在逻辑和推理问题上的表现仍然有限。这成为开发透明、可信的人工智能的一大障碍。本文介绍的新 Boolformer 模型为符号逻辑任务提供.

机器学习实际上只是旋转形状！

23-09-20 212 1

形状只是数字间几何图形的涌现。在我们研究的模型中，一些神经元确实清晰地映射到特征。但特征与神经元的对应关系并不总是如此清晰，尤其是在大型语言模型中，神经元与清晰的特征对应起来实际上似乎很少见。这带来了.

股票预测神经网络和机器学习示例

23-09-14 239

本项目是使用样本股票数据的 Python 神经网络和 ML 股票预测方法示例。ML 和 NN 方法和库的资料库，以及用于训练和测试的样本股数据。这些示例简单易懂，突出了每种方法的基本组成部分。示例还展.

用Python实现KNN量化交易步骤

23-09-11 257 8K

K 最近邻 (KNN)、支持向量机 (SVM)、随机森林和神经网络等ML 技术常用于交易应用程序。这些算法可以分析历史价格数据、市场指标、新闻情绪和其他相关因素，以预测未来价格走势并确定最佳进入和退出.

Python将引入不变对象等本周互联网大厂博文推荐

23-08-26 226 3K

从最近的科技公司工程博客中精选博文：[Meta] 介绍 Python 的 Immortal 对象 Instagram 向 Python 引入了 Immortal Objects – PEP-683。现.

梯度下降中小步长假设可能是错误的

23-08-13 292 2K

梯度下降算法可以通过包含意想不到的大步长来更快地工作，而研究人员长期以来认为呈梯度逐步完善的，所以取名梯度下降。寻找最佳解决方案场景到处都是：手机的 GPS 会计算到达目的地的最短路线。旅游网站会.

本周多篇机器学习用于推荐系统的大科技文摘

23-08-12 311 5K

有选择地从科技公司的工程博客中挑选了博客文章：[Meta]扩展 Instagram Explore 推荐系统讲述了一个关于使用先进机器学习模型（如两塔神经网络）使 Instagram 推荐更具可扩展.

破解ACL论文：Gzip和KNN在文本分类中与BERT竞争

23-07-24 689 3K

在今年著名的自然语言处理（NLP）ACL 会议上发表的一篇新论文在研究人员中引起了热议。该论文表明，使用 gzip 和 K-nearest neighbour (KNN) 组合对文本进行分类的性能与包.

什么是向量数据库VectorDatabase？

23-07-07 1255

随着基础模型的兴起，VectorDatabase(矢量数据库/向量数据库)的受欢迎程度直线上升。事实上，向量数据库在大型语言模型的上下文之外也很有用。当涉及到机器学习时，我们经常与向量嵌入打交道。向量.

机器学习中“First-Explore先探索”元学习是什么？

23-07-07 249

人类是探索的大师。与机器强化学习RL不同的是：我们不是像RL那样通过尝试最大化奖励来探索，而是通过探索来获取信息！这是标准RL机器学习速度比人类慢得多的主要原因。我们提出了一个新的元RL框架（Firs.

认知的计算模型：归纳模型

23-06-05 580 13K

这篇综述重点介绍了过去三十年来在驱动归纳推理的过程的计算建模方面取得的进展。这些模型的形式复杂性和解释范围都取得了重要进展。需要注意的是，这项工作的大部分重点是证明给定模型可以很好地说明归纳数据，而不.

英伟达在机器学习领域CUDA垄断是如何建立的？

23-06-04 513 8K

在过去十年中，机器学习软件开发的格局经历了重大变化。许多框架层出不穷，但大多数框架都严重依赖利用Nvidia的CUDA，并在Nvidia GPU上表现最佳。然而，随着PyTorch 2.0和OpenA.

上周大语言模型顶级ML论文概要

23-04-03 380

这是上周顶级 ML 论文（3 月 27 日至 4 月 2 日）：BloombergGPT 一个新的 50B 参数的金融 LLM。声称拥有 3630 亿个令牌的最大特定领域数据集......进一步增加了.

使用机器学习进行预测

23-03-08 726 2K

时间序列预测是机器学习历史最悠久的应用之一，也是整个行业使用最普遍的技术之一（如果不是最普遍的话）。然而，在最近的 ML 热潮中，预测有些落伍了。时间序列预测正在成为一门失传的艺术。它是美国零售业5.

Netflix可扩展的数据注释服务

23-01-28 791 4K

在Netflix，我们有数百个微型服务，每个都有自己的数据模型或实体。例如，我们有一个存储电影实体元数据的服务或一个存储图像元数据的服务。所有这些服务在以后都想对他们的对象或实体进行注释。我们的团队，.

什么是过度拟合？

23-01-19 1935

过度拟合（Understanding Overfitting）是一种建模错误，当一个函数与一组有限的数据点过于紧密地拟合时就会发生。因此，该模型仅在参考其初始数据集时有用，而不是在参考任何其他数据集时.

2022年人工智能热门故事

22-12-28 1024 8K

2022年是AI 取得巨大进步的一年，AIGC年：生成类人文本、图像和代码的系统。合成图像 OpenAI 在四月份推出了DALL·E 2。超过 150 万用户对该模型进行了 Beta 测试，并于 9 .

数据科学的 5 个图算法

22-12-25 890 3K

图分析是未来！我们已经非常熟悉 Pandas 或 SQL 或任何其他关系数据库，这导致：我们习惯于在数据表的“记录行”中查看分析我们的产品用户，并将他们的属性作为列。但现实世界真的是这样吗？在互联世界.

机器学习中特征工程的最佳实践 - mark

22-12-23 837

特征工程是为表格数据构建出色模型的最重要部分。我重新审视了过去从事的数十个表格 ML 项目，并将我使用的技术提炼为可重复的、强大的流程。这是我发现的：先从让我们处理 NaN 开始：选项 #1：用有意义.

7 个很棒的免费 AI 工具

22-12-18 14281 1 3K

下面是最佳人工智能工具，可以免费进行测试，无需添加您的信用卡号码等：1、GFP-GAN——照片修复GFP-GAN是一种新的免费 AI 工具，可以立即修复大多数旧照片。GFP-GAN（生成面部优先生成对.

2023年数据工程预测

22-12-06 1193 2K

需求是发明之母，我预测2023年将是技术的辉煌一年，这些技术可以帮助团队保存数据运维方面的时间、收入和资源，使工程师可以专注于构建、扩展和总体上做到事半功倍。以下是我对明年一些最重要趋势的预测（没有特.

OpenAI的ChatGPT与GPT3区别？

22-12-04 4747 1

ChatGPT 是 OpenAI 最新的大型语言模型，于 2022 年 11 月 30 日发布，作为面向公众开放的聊天应用程序。ChatGPT 是 GPT3 的一大飞跃，就像 GPT3 本身是 GPT.

Stripe如何解决信用卡欺诈？ - Patrick

22-12-01 1368 2K

信用卡是一个传统系统。它们对全球商业极为重要，但表现出路径依赖。它们的大部分幕后运作都来自50多年前做出的设计， Stripe正在为每个人升级这个关键系统。考虑一下信用卡欺诈的情况。信用卡最初设计的核.

Spotify如何使用抖动算法随机播放歌曲？

22-11-17 2039 2K

自 Spotify 服务推出以来，我们使用 Fisher-Yates shuffle 来生成播放列表的完全随机随机播放。Fisher-Yates shuffle 是最漂亮的随机算法之一，令人惊讶的.

奈飞使用机器学习创建媒体

22-11-15 1143

ML 能否取代创意内容生成器，还是将创意提升到新高度的绝佳助手？Netflix 撰写有关其 ML 平台的文章以协助其媒体制作。在 Netflix，我们每年都会为全球会员推出数以千计的新电视节目和电影。.

机器学习的静态特征和动态特征

22-11-13 1994

在设计机器学习系统时，了解静态和动态特征之间的区别很重要，因为它可能会成败您将 ML 模型发布到生产中的努力。静态特征：这些特征是由不经常变化的数据产生的。这些数据很可能与你的数据模型中的维度相.