数据科学教程

上海AI实验室推出自主学习操作系统OS-Copilot

上海人工智能实验室、华东师范大学、普林斯顿大学、香港大学推出《OS-Copilot：迈向自我完善的多面手计算机代理》这是一个构建通用代理的框架，能够与操作系统 (OS) 中的综合元素（包括 Web、代码终端、文件、多媒体和各种第三方应用程序）进行交互。

如何成为一名量化分析师（宽客）？

要点：量化金融工作结合了数学和工程技能金融领域的量化分析师寻找基础资产之间的数学关系，或根据这些资产创建衍生品金融领域的量化分析师也（越来越多地）在风险等领域工作当您与交易者或投资组合经理的损益密切相关时，您在量化金融中赚到的钱最多。

贝叶斯深度学习简介

在本教程中，我们将学习贝叶斯深度学习的简介。神经网络的概率可以通过使用贝叶斯接口来检查。我们可以通过对标准神经网络工具的简单修改来近似这个概念问题。贝叶斯定理是数据科学的一部分。它还包括以下学科：计算机科学、统计学和概率。该定理用于根据可用的重要数据计算

从人类反馈中强化学习

人类反馈强化学习 (RLHF)是机器学习中的一种方法，利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界，其中人类反馈强化学习 (RLHF)

使用NumPy演示实现神经网络过程

在不断发展的人工智能（模拟智能）领域，有一个想法经久不衰，并被证明是当今机器学习的基础：人工神经网络（ANN）。这些计算模型在人类思维不可预测的神经元网络的推动下，在从图像识别到自然语言处理的任务中表现出了惊人的能力。在本文中，我们将继续揭开人工神经网络内部功能的神秘面纱，并重点讨论为什么从头开始构

2024年数据中台工程十大趋势

在当今世界，创新和决策需要实时数据管道和实时数据处理，对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法，持续为公司提供有关如何克服所面临挑战的见解。什么是数

PySpark DataFrame教程与演示

PySpark DataFrame 是 PySpark 库中的基本抽象，专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分，提供了一种强大且绿色的方式来大规模处理结构化信息。 PySpark DataFrame 建立在

使用 SVM 和决策树进行集成学习

集成学习是一种机器学习技术，它结合了多个单独的模型来提高预测性能。集成学习中使用的两种流行算法是支持向量机 (SVM) 和决策树。什么是集成学习？

使用PyTorch演示实现神经网络过程

借助著名的开源PyTorch 框架，可以使用Python创建和训练神经网络。本教程将教您如何使用 PyTorch 创建基本神经网络并对 MNIST 数据集中的手写数字进行分类。现代人工智能依赖于神经网络，神经网络赋予机器类似于人类的学习和判断能力。回归、

机器学习中的 CatBoost

一种名为 CatBoost 的灵活有效的技术可用于快速发展的机器学习领域，在该领域，创新是标准，数据是一切进步的源泉。这种方法的名字很有趣，是“Categorical Boosting”的变体，它彻底改变了我们处理数据科学问题的方式。CatBoost 是一个出色的解决方案，由俄罗斯全球 IT 企业

Observable：Markdown中可嵌入JavaScript的Notebook

Observable 2.0是一个开源静态站点生成器，用于构建快速、美观的数据应用程序、仪表板和报告。

什么是数据准备？

原始数据可能包含也可能不包含错误和不一致。因此，得出可行的见解并不简单。我们必须准备数据，以将我们从不完整、不准确和非结构化数据的陷阱中拯救出来。在本文中，我们将了解数据准备、过程以及在此过程中面临的挑战。什么是数据准备？数据准备是为后处理和分析

数据分析与机器学习

数据分析和机器学习是从大量信息中提取意义的重要方法。尽管它们有共同点，但这些方法也具有本质区别。什么是数据分析数据分析领域需要探索原始数据以揭示潜在的模式、联系和发展。它涵盖了广泛的技术，包括描述性、诊断性、预测

用决策树解决多重共线性问题

多重共线性是数据科学中的一个常见问题，影响各种类型的模型，包括决策树。本文探讨了什么是多重共线性、为什么它对决策树来说是个问题，以及如何解决它。什么是多重共线性？多重共线性是统计分析中的一个问题，其中回归模型中的

Keras 中使用 LSTM 进行多元时间序列预测

多元预测需要利用多个与时间相关的变量来生成预测。这种预测方法结合了历史数据，同时考虑了模型内变量之间的相互依赖性。在本文中，我们将探索使用 LSTM 进行多元预测的世界，深入了解其核心，探索其应用，并掌握其对未来决策的革命性影响。什么是多

Python中实现统计学的逻辑分布

概率分布是统计分析的基石，提供了一种结构化的方式来描述和理解数据中的变异性。在这些分布中，逻辑分布作为一种多功能工具脱颖而出，特别适合对结果介于两个极限之间的场景进行建模。逻辑分布在各个领域都有应用，从预测二元结果到了解增长率。在这篇文章中，我们将研究逻辑分布的特征，解读其复杂性，并探索如何充分利用

Python中使用LightGBM

人工智能领域取得了巨大进展，推动了不同算法的进步来处理复杂的任务。其中一种算法是 LightGBM，是 Light Gradient Boosting Machine 的缩写。LightGBM 因其处理海量数据集的熟练程度、速度和能力而受到关注。在本文中，我们将研究 LightGBM 是什么、它的工

Python中PyCaret简介

PyCaret，一个新的 Python 机器学习库。 PyCaret 被誉为数据科学家的低代码资源，旨在缩短机器学习实验的“从假设到见解的周期时间”。它使数据科学家能够快速有效地完成实验。只需几行代码，您就可以在 PyCaret 库的帮助下执行复杂的机器学习任务。