数据科学教程

     

DuckDB简介

19 7K

DuckDB是一个内存分析型关系数据库,主要用于数据分析。由于其列式存储性质(单独存储每列的数据),它被视为分析数据库。相比之下,传统的关系数据库采用基于行的存储,逐行存储数据。DuckDB 的优点包.

Scikit-learn SVM 实现

14

支持向量机 (SVM) 是用于分类、回归和异常值检测任务的最通用和最广泛使用的机器学习算法之一。在 SVM 实现领域,Scikit-learn 因其易用性和鲁棒性而成为首选库。然而,掌握 Scikit.

大模型对AI研究有害?

48

在 GPT4 之后,大模型LLM 的性能和设计改进进展相对较少:使其变得更好的主要方法仍然只是将其做大,而且所有替代transformer的架构都被证明是不合格的、低劣的,它们将人们的注意力(和投资).

Scikit-learn可扩展学习简介

19 2K

随着机器学习模型变得越来越复杂和数据集变得越来越大,可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法,但其有效处理大型数据集的.

本周Github上数据科学Python有趣项目

60 5K

Github上数据科学有趣的项目、工具和库openllmetry适用于您的 LLM 应用程序的开源可观测性。OpenLLMetry 是一组基于OpenTelemetry构建的扩展,可让您对 LLM 应.

贝叶斯回归简介

33 3K

传统回归分析和贝叶斯概率论结合在称为贝叶斯回归的统计建模技术中。考虑有关模型定义特征的先验知识或假设。当处理稀疏或嘈杂的数据或当您希望对模型参数进行概率声明时,贝叶斯回归特别有用。与贝叶斯回归相关的主.

机器学习中的元学习

36 2K

元学习的分支,也称为学习学习,被定义为从不同算法中学习的学习算法。其主要目的是在其他算法的帮助下增强算法的性能。这种方法提供了解决深度学习的几个传统问题的机会,例如数据和处理瓶颈以及泛化。元学习还可以.

Word2vec中的连续词袋 (CBOW)

44 2K

连续词袋(CBOW)模型是一种用于自然语言处理的神经网络模型。它可用于多种任务,例如语言翻译和文本分类。它用于根据周围的单词来预测单词。我们可以使用不同的优化算法(例如随机梯度下降)在大型数据集上训练.

贝叶斯深度学习简介

36 3K

在本教程中,我们将学习贝叶斯深度学习的简介。神经网络的概率可以通过使用贝叶斯接口来检查。我们可以通过对标准神经网络工具的简单修改来近似这个概念问题。贝叶斯定理是数据科学的一部分。它还包括以下学科:计算.

使用 SVM 和决策树进行集成学习

38 4K

集成学习是一种机器学习技术,它结合了多个单独的模型来提高预测性能。集成学习中使用的两种流行算法是支持向量机 (SVM) 和决策树。什么是集成学习?通过合并许多模型(也称为“基础学习器”或“弱学习器”).

使用PyTorch演示​​实现神经网络过程

42 13K

借助著名的开源PyTorch 框架,可以使用Python创建和训练神经网络。本教程将教您如何使用 PyTorch 创建基本神经网络并对 MNIST 数据集中的手写数字进行分类。现代人工智能依赖于神经网.

使用NumPy演示​​实现神经网络过程

38 17K

在不断发展的人工智能(模拟智能)领域,有一个想法经久不衰,并被证明是当今机器学习的基础:人工神经网络(ANN)。这些计算模型在人类思维不可预测的神经元网络的推动下,在从图像识别到自然语言处理的任务中表.

PySpark DataFrame教程与演示

33 5K

PySpark DataFrame 是 PySpark 库中的基本抽象,专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分,提供了一种强大且绿色的方式来大规模处理结.

机器学习中的 CatBoost

47 4K

一种名为 CatBoost 的灵活有效的技术可用于快速发展的机器学习领域,在该领域,创新是标准,数据是一切进步的源泉。这种方法的名字很有趣,是“Categorical Boosting”的变体,它彻底.

Observable:Markdown中可嵌入JavaScript的Notebook

33 3K

Observable 2.0是一个开源静态站点生成器,用于构建快速、美观的数据应用程序、仪表板和报告。什么是Observable 2.0框架从本质上讲,Observable Framework 是一个.

什么是数据准备?

86 4K

原始数据可能包含也可能不包含错误和不一致。因此,得出可行的见解并不简单。我们必须准备数据,以将我们从不完整、不准确和非结构化数据的陷阱中拯救出来。在本文中,我们将了解数据准备、过程以及在此过程中面临的.

数据分析与机器学习

43

数据分析和机器学习是从大量信息中提取意义的重要方法。尽管它们有共同点,但这些方法也具有本质区别。什么是数据分析数据分析领域需要探索原始数据以揭示潜在的模式、联系和发展。它涵盖了广泛的技术,包括描述性、.

用决策树解决多重共线性问题

63 5K

多重共线性是数据科学中的一个常见问题,影响各种类型的模型,包括决策树。本文探讨了什么是多重共线性、为什么它对决策树来说是个问题,以及如何解决它。什么是多重共线性?多重共线性是统计分析中的一个问题,其中.

如何成为一名量化分析师(宽客)?

38 3K

要点: 量化金融工作结合了数学和工程技能 金融领域的量化分析师寻找基础资产之间的数学关系,或根据这些资产创建衍生品 金融领域的量化分析师也(越来越多地)在风险等领域工作 当您与交易者或投资组合经理的损.

2024年数据中台工程十大趋势

80 4K

在当今世界,创新和决策需要实时数据管道和实时数据处理,对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法,持续为公司提供有关如何克服所面临挑战的见解。什么是数据中台工程?数据中台工程是设计.

从人类反馈中强化学习

47 3K

人类反馈强化学习 (RLHF)是机器学习中的一种方法,利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界,其中人类反馈强化学习 (RLHF)占据了中心舞台,在机器智能和人类.

Keras 中使用 LSTM 进行多元时间序列预测

70 12K

多元预测需要利用多个与时间相关的变量来生成预测。这种预测方法结合了历史数据,同时考虑了模型内变量之间的相互依赖性。在本文中,我们将探索使用 LSTM 进行多元预测的世界,深入了解其核心,探索其应用,并.

Python中实现统计学的逻辑分布

50 5K
概率分布是统计分析的基石,提供了一种结构化的方式来描述和理解数据中的变异性。在这些分布中,逻辑分布作为一种多功能工具脱颖而出,特别适合对结果介于两个极限之间的场景进行建模。逻辑分布在各个领域都有应用,.

上海AI实验室推出自主学习操作系统OS-Copilot

184

上海人工智能实验室、 华东师范大学、 普林斯顿大学、 香港大学推出《OS-Copilot:迈向自我完善的多面手计算机代理》这是一个构建通用代理的框架,能够与操作系统 (OS) 中的综合元素(包括 We.

Python中使用LightGBM

61 4K

人工智能领域取得了巨大进展,推动了不同算法的进步来处理复杂的任务。其中一种算法是 LightGBM,是 Light Gradient Boosting Machine 的缩写。LightGBM 因其处.

Python中PyCaret简介

69 3K

 PyCaret,一个新的 Python 机器学习库。 PyCaret 被誉为数据科学家的低代码资源,旨在缩短机器学习实验的“从假设到见解的周期时间”。它使数据科学家能够快速有效地完成实验。只需几行代.

Python中数据可视化三种方法

42 12K

数据可视化是机器学习的关键阶段。要完全理解数据的行为和特征,您必须首先将其可视化。 Python 提供了不同的数据可视化库。1、使用 TuriCreateTuricreate 是 Python 提供的.

Python中用NumPy创建自己的通用函数

62 3K

NumPy 是 Numerical Python 的缩写,是用于临床计算的 Python 环境中的基础库。它为运行大型多维数组和矩阵提供帮助,并提供广泛的数学功能以成功地对这些数组进行操作。NumPy.

Instagram短视频如何实现推荐系统?

60 3K

社交媒体已成为沟通和娱乐的主要平台,需要不断寻求创新方式来保持用户的参与度和娱乐性。Instagram 是领先的社交媒体平台之一,有一个名为 Instagram Reels 的关键功能,这是一种短视频.

数据科学家学习100个SQL查询教程

40 2K

点击标题 适合非计算机专业的其他领域专家通过数据获得见解。目标受众 Rachel 拥有细胞生物学硕士学位,现在在一家研究医院从事细胞分析工作。 她在本科生生物统计学课程中学习了一些 R 语言,并完成了.