数据科学教程

AI成功是因为数学吗？

24-07-12 18

学习AI或研究AI的认知偏见："人工智能之所以有效，是因为数学！"，Sean McClure反驳了这个观点：不，至少不是你想象的那样。如果你把足够多的原始部件拼凑在一起，就会得到与部件截然不同的东西。.

关系数据库很快会替代向量数据库

24-07-04 25

安迪·帕夫洛和迈克尔·斯通布雷克关于矢量数据库的严厉言辞：向量数据库（Vector Databases）无存在必要。向量数据库是一种专门设计的数据库管理系统（DBMS），它们使用索引来加速最近邻搜索（.

八大预测算法小结

24-06-30 13

时间序列预测的算法繁多，让人眼花缭乱。在 5 分钟内，我将分享 5 年来使用 8 种常见预测算法的经验。1.ARIMA（自回归整合移动平均）：使用线性回归作为基础模型。捕捉自回归和移动平均项，同时对原.

一张图：9个数据科学中的距离测量与算法

24-06-28 8

什么是方框图？

24-06-28 8

方框图是数据科学武器库中最有用的工具之一。在 6 分钟内，将向您传授 6 年来使用方框图进行 EDA 和解决问题的经验。什么是方框图？方框图是显示数据分布的标准化方法，它基于五个数字汇总：最小值、第一.

一张图：数据分析师的完整数据可视化指南图

24-06-28 24

NumPy 2.0.0发布

24-06-18 60 2K

NumPy 2.0.0是自 2006 年以来第一个主要版本： https://github.com/numpy/numpy/releases/tag/v2.0.0 https://numpy.org/.

什么是反向 ETL？概述、用例和主要优点

24-06-12 22 4K

在不断发展的数据工程领域，反向 ETL 已成为企业利用其数据仓库和其他数据平台超越传统分析的关键流程。反向 ETL 或反向“提取、转换、加载”是将数据从集中式数据仓库或数据湖移动到数据管道内的操作系统.

Spring Boot中集成机器学习简介

24-06-03 23 5K

如今，机器学习提供了创新的解决方案和更好的用户体验。在动态的软件开发领域，利用机器学习的力量对于创建智能和自适应应用程序至关重要。Spring Boot 以其简单性和高效性而闻名，为构建强大的企业应用.

比较 Pandas、Polars 和 PySpark：基准分析

24-05-21 66 2K

比较 Pandas、Polars 和 PySpark 三种工具的不同数据集，得出数据处理未来发展方向的结论。PandasPandas 一直是数据操作、探索和分析的主要工具。由于 Pandas 与 R .

幽默：Python很容易学？

24-05-17 81

机器学习中贝叶斯建模和概率编程简介

24-05-16 41 2K

贝叶斯（Bayesian）模型直接对不确定性进行建模，并提供了将专家知识纳入模型的框架。背景传统的机器学习 (ML) 模型和人工智能技术通常存在一个严重缺陷：缺乏不确定性的量化。这些模型通常提供点估.

AI架构师：职责、技能以及如何称为一名AI架构师？

24-05-15 56

人工智能 (AI)是快速发展的技术领域的主导方式，具有改变人类能力并彻底改变整个行业的能力。人工智能架构师的技能负责在每个突破性人工智能解决方案的幕后协调智能系统的创建和使用。本文探讨了架构师的角色、.

Python与Excel VBA比较

24-04-30 67 7K

众所周知，Python和Excel VBA各自是两种不同的工具，具有不同的范围，最终都具有编程和数据操作领域的功能。Python 被认为是一种多功能、高级、通用的编程语言，以其在当今时代广泛的应用而闻.

VASA-1：将图像转换为视频的AI模型

24-04-24 46 2K

想象一下，让一幅珍贵的肖像栩栩如生，让人物说话并表达情感。得益于微软突破性的VASA-1 AI 模型，这一未来概念现在更接近现实。这是一种新的人工智能模型，可以将一张照片和一段音频变成完全逼真的深度伪.

AI研究中数学和算法哪个优先？

24-04-18 63 3K

问题：我现在正在学习扩散背后的方法（DDPM、基于分数的方法和其他方法）。我想知道研究人员究竟是如何提出这个想法的？发明新方法的过程是这样的吗？我们想制作更好的图像生成器。哦，数据永远都不够......

DuckDB简介

24-04-16 247 7K

DuckDB是一个内存分析型关系数据库，主要用于数据分析。由于其列式存储性质（单独存储每列的数据），它被视为分析数据库。相比之下，传统的关系数据库采用基于行的存储，逐行存储数据。DuckDB 的优点包.

Scikit-learn SVM 实现

24-04-14 38

支持向量机 (SVM) 是用于分类、回归和异常值检测任务的最通用和最广泛使用的机器学习算法之一。在 SVM 实现领域，Scikit-learn 因其易用性和鲁棒性而成为首选库。然而，掌握 Scikit.

大模型对AI研究有害？

24-04-05 84

在 GPT4 之后，大模型LLM 的性能和设计改进进展相对较少：使其变得更好的主要方法仍然只是将其做大，而且所有替代transformer的架构都被证明是不合格的、低劣的，它们将人们的注意力（和投资）.

Scikit-learn可扩展学习简介

24-04-04 46 2K

随着机器学习模型变得越来越复杂和数据集变得越来越大，可扩展性成为从业者和研究人员的一个重要关注点。虽然 Python 的 scikit-learn 库提供了广泛的机器学习算法，但其有效处理大型数据集的.

本周Github上数据科学Python有趣项目

24-03-16 97 6K

Github上数据科学有趣的项目、工具和库openllmetry适用于您的 LLM 应用程序的开源可观测性。OpenLLMetry 是一组基于OpenTelemetry构建的扩展，可让您对 LLM 应.

贝叶斯回归简介

24-03-13 78 3K

传统回归分析和贝叶斯概率论结合在称为贝叶斯回归的统计建模技术中。考虑有关模型定义特征的先验知识或假设。当处理稀疏或嘈杂的数据或当您希望对模型参数进行概率声明时，贝叶斯回归特别有用。与贝叶斯回归相关的主.

机器学习中的元学习

24-03-13 66 2K

元学习的分支，也称为学习学习，被定义为从不同算法中学习的学习算法。其主要目的是在其他算法的帮助下增强算法的性能。这种方法提供了解决深度学习的几个传统问题的机会，例如数据和处理瓶颈以及泛化。元学习还可以.

Word2vec中的连续词袋 (CBOW)

24-03-13 82 2K

连续词袋（CBOW）模型是一种用于自然语言处理的神经网络模型。它可用于多种任务，例如语言翻译和文本分类。它用于根据周围的单词来预测单词。我们可以使用不同的优化算法（例如随机梯度下降）在大型数据集上训练.

贝叶斯深度学习简介

24-03-13 60 3K

在本教程中，我们将学习贝叶斯深度学习的简介。神经网络的概率可以通过使用贝叶斯接口来检查。我们可以通过对标准神经网络工具的简单修改来近似这个概念问题。贝叶斯定理是数据科学的一部分。它还包括以下学科：计算.

使用 SVM 和决策树进行集成学习

24-03-11 72 4K

集成学习是一种机器学习技术，它结合了多个单独的模型来提高预测性能。集成学习中使用的两种流行算法是支持向量机 (SVM) 和决策树。什么是集成学习？通过合并许多模型（也称为“基础学习器”或“弱学习器”）.

使用PyTorch演示实现神经网络过程

24-03-09 82 13K

借助著名的开源PyTorch 框架，可以使用Python创建和训练神经网络。本教程将教您如何使用 PyTorch 创建基本神经网络并对 MNIST 数据集中的手写数字进行分类。现代人工智能依赖于神经网.

使用NumPy演示实现神经网络过程

24-03-08 60 17K

在不断发展的人工智能（模拟智能）领域，有一个想法经久不衰，并被证明是当今机器学习的基础：人工神经网络（ANN）。这些计算模型在人类思维不可预测的神经元网络的推动下，在从图像识别到自然语言处理的任务中表.

PySpark DataFrame教程与演示

24-03-08 61 5K

PySpark DataFrame 是 PySpark 库中的基本抽象，专为分配的记录处理和操作而设计。它是 Apache Spark 生态系统的重要组成部分，提供了一种强大且绿色的方式来大规模处理结.

机器学习中的 CatBoost

24-03-07 90 4K

一种名为 CatBoost 的灵活有效的技术可用于快速发展的机器学习领域，在该领域，创新是标准，数据是一切进步的源泉。这种方法的名字很有趣，是“Categorical Boosting”的变体，它彻底.