数据科学教程 - 第2页

Observable：Markdown中可嵌入JavaScript的Notebook

24-03-04 66 3K

Observable 2.0是一个开源静态站点生成器，用于构建快速、美观的数据应用程序、仪表板和报告。什么是Observable 2.0框架从本质上讲，Observable Framework 是一个.

什么是数据准备？

24-02-29 138 4K

原始数据可能包含也可能不包含错误和不一致。因此，得出可行的见解并不简单。我们必须准备数据，以将我们从不完整、不准确和非结构化数据的陷阱中拯救出来。在本文中，我们将了解数据准备、过程以及在此过程中面临的.

数据分析与机器学习

24-02-27 65

数据分析和机器学习是从大量信息中提取意义的重要方法。尽管它们有共同点，但这些方法也具有本质区别。什么是数据分析数据分析领域需要探索原始数据以揭示潜在的模式、联系和发展。它涵盖了广泛的技术，包括描述性、.

用决策树解决多重共线性问题

24-02-27 124 5K

多重共线性是数据科学中的一个常见问题，影响各种类型的模型，包括决策树。本文探讨了什么是多重共线性、为什么它对决策树来说是个问题，以及如何解决它。什么是多重共线性？多重共线性是统计分析中的一个问题，其中.

如何成为一名量化分析师（宽客）？

24-02-25 72 3K

要点：量化金融工作结合了数学和工程技能金融领域的量化分析师寻找基础资产之间的数学关系，或根据这些资产创建衍生品金融领域的量化分析师也（越来越多地）在风险等领域工作当您与交易者或投资组合经理的损.

2024年数据中台工程十大趋势

24-02-22 118 4K

在当今世界，创新和决策需要实时数据管道和实时数据处理，对数据工程领域的重视程度日益增加。数据工程提供了许多工具和方法，持续为公司提供有关如何克服所面临挑战的见解。什么是数据中台工程？数据中台工程是设计.

从人类反馈中强化学习

24-02-18 87 3K

人类反馈强化学习 (RLHF)是机器学习中的一种方法，利用人类输入来增强人工智能 (AI) 代理的训练。让我们走进迷人的人工智能世界，其中人类反馈强化学习 (RLHF)占据了中心舞台，在机器智能和人类.

Keras 中使用 LSTM 进行多元时间序列预测

24-02-18 128 11K

多元预测需要利用多个与时间相关的变量来生成预测。这种预测方法结合了历史数据，同时考虑了模型内变量之间的相互依赖性。在本文中，我们将探索使用 LSTM 进行多元预测的世界，深入了解其核心，探索其应用，并.

Python中实现统计学的逻辑分布

24-02-15 78 5K

概率分布是统计分析的基石，提供了一种结构化的方式来描述和理解数据中的变异性。在这些分布中，逻辑分布作为一种多功能工具脱颖而出，特别适合对结果介于两个极限之间的场景进行建模。逻辑分布在各个领域都有应用，.

上海AI实验室推出自主学习操作系统OS-Copilot

24-02-15 231

上海人工智能实验室、华东师范大学、普林斯顿大学、香港大学推出《OS-Copilot：迈向自我完善的多面手计算机代理》这是一个构建通用代理的框架，能够与操作系统 (OS) 中的综合元素（包括 We.

Python中使用LightGBM

24-02-14 94 4K

人工智能领域取得了巨大进展，推动了不同算法的进步来处理复杂的任务。其中一种算法是 LightGBM，是 Light Gradient Boosting Machine 的缩写。LightGBM 因其处.

Python中PyCaret简介

24-02-12 105 3K

PyCaret，一个新的 Python 机器学习库。 PyCaret 被誉为数据科学家的低代码资源，旨在缩短机器学习实验的“从假设到见解的周期时间”。它使数据科学家能够快速有效地完成实验。只需几行代.

Python中数据可视化三种方法

24-02-12 62 12K

数据可视化是机器学习的关键阶段。要完全理解数据的行为和特征，您必须首先将其可视化。 Python 提供了不同的数据可视化库。1、使用 TuriCreateTuricreate 是 Python 提供的.

Python中用NumPy创建自己的通用函数

24-02-12 106 3K

NumPy 是 Numerical Python 的缩写，是用于临床计算的 Python 环境中的基础库。它为运行大型多维数组和矩阵提供帮助，并提供广泛的数学功能以成功地对这些数组进行操作。NumPy.

Instagram短视频如何实现推荐系统？

24-02-08 90 3K

社交媒体已成为沟通和娱乐的主要平台，需要不断寻求创新方式来保持用户的参与度和娱乐性。Instagram 是领先的社交媒体平台之一，有一个名为 Instagram Reels 的关键功能，这是一种短视频.

数据科学家学习100个SQL查询教程

24-02-07 62

点击标题适合非计算机专业的其他领域专家通过数据获得见解。目标受众 Rachel 拥有细胞生物学硕士学位，现在在一家研究医院从事细胞分析工作。她在本科生生物统计学课程中学习了一些 R 语言，并完成了.

Python矢量化编程

24-02-03 76 15K

在传统的编码领域，Python 的矢量化成为一股改变游戏规则的力量。虽然循环长期以来一直是重复性任务的主力，但请将它们视为我们代码中可靠的工人蚂蚁。现在，进入 Python 的矢量化——超级英雄准备取.

使用谷歌Gemini Pro的Bard实现数据处理自动化

24-01-28 98

使用 Gemini Pro 的 Bard 已在 Arena 上超越了 GPT-4。将它与 Google Sheets 结合使用，可实现数据处理自动化。我将向你展示如何使用 Bard 管理电子表格，而无.

2024年20大数据科学工具

24-01-23 97 5K

企业数据变得越来越具有挑战性，并且由于它在战略规划和决策中发挥着关键作用，组织被迫在从数据资产中提取有用的业务洞察所需的人员、程序和技术上投入资金。当我们深入研究 2024 年时，数据科学工具的前景已.

什么是句子嵌入、交叉编码器和重新排名

24-01-22 118 18K

深入探讨嵌入并解释双编码器和交叉编码器之间的差异，然后，我们将深入研究检索和重新排名。什么是双编码器和交叉编码器？Sentence Transformers 支持两种类型的模型：双编码器和交叉编码器。.

Python中十大数据科学顶级库介绍

24-01-19 455 28K

当我们了解不断发展的Python开发环境时，是时候再次关注今年引起我们注意的杰出库和工具了。1. Lite LLM — 调用任何使用OpenAI格式的 LLM 等LiteLLM 直观且非侵入式的设计允.

什么是遗传算法

24-01-17 86 6K

遗传算法 (GA) 是更大类别的进化算法 (EA) 的子集，是计算机科学和运筹学中使用的一种元启发式算法，其灵感来自于自然选择的过程。遗传算法经常采用受生物学启发的算子，包括变异、交叉和选择，以产生优.

每个初学者都应该知道的 50 个人工智能术语

24-01-17 98 6K

看到一个技术术语而不理解它的含义是很常见的。随着人工智能极其先进并日益进步，如果您与人工智能或任何技术工作没有直接关系，一些人工智能术语并不容易理解。因此，即使你是一个想要学习一些基本术语的初学者，或.

机器学习工程师必须具备的 10 项技能

24-01-17 126 2K

在本文中，我们将探讨机器学习工程师必备的 10 项技能。什么是#机器学习在机器学习中，计算机从数据中学习并根据该数据做出预测。就像我们用例子教孩子一样，就像我们用例子教计算机算法一样。在这个领域，我们.

如何成为一名数据顾问?

24-01-17 186 4K

您是否想知道谁解释了大量的全球数据并将其转化为企业可以使用的见解？这些是数据顾问，所以不要在其他地方搜索。这些专业人员利用他们的专业知识来指导组织应对数据分析的复杂性，帮助他们在信息泛滥的时代做出明智.

Marimo：Python开源反应式笔记本notebook

24-01-13 250

marimo 是 Python 的反应式笔记本notebook 。它允许您快速试验数据和模型，对笔记本的正确性充满信心地进行编码，并将笔记本生产为管道或交互式 Web 应用程序。在 marimo 中.

为什么最简单的解释并不总是最好的

24-01-10 105

该文章讨论了降维方法在解释高维数据时的局限性。主成分分析（PCA）是一种常用的降维技术，但它可能会错过数据中存在的结构或产生幻觉的结构。作者通过示例说明了当应用PCA于时间或空间平滑信号时可能出现的振.

使用一个深度学习 pCTR 模型分析广告效果

23-12-22 101 3K

在 Instacart Ads，我们的重点在于向客户提供最具相关性的广告，促进新颖的产品发现并增强他们的杂货购物之旅。同时，我们努力通过提高品牌认知度、增加产品销量和扩大客户范围来为广告商提供价值。在.

Java和Python中的目标堆栈规划实现

23-12-20 101 19K

目标堆栈规划是一种简单高效的人工智能规划算法，用于解决复合目标问题。它的工作原理是**将总体目标分解为更小的子目标，然后以向后的顺序逐一解决它们。让我们考虑一个简单的例子来说明目标堆栈规划。想象一下你.

什么是数据挖掘交易

23-12-19 114

数据挖掘交易(Data mining trading 简称DMT)是指使用先进的数据分析技术从金融市场的大型数据集中提取有价值的见解和模式，然后应用这些见解来为交易决策提供信息。这就像筛选一座沙山来寻.