数据科学教程

     

时间旅行助推器如何加速 AGI 开发? - Carlos E. Perez

813 2K

CS Peirce(皮尔士) 在 100 多年前发明了一种终极的“时间旅行逆转”。皮尔士是一位哲学家和逻辑学家,以其在数学基础和科学哲学方面的工作而闻名。在他的著作中,皮尔士勾勒出任何科学发现的框架,.

什么是 PageRank 算法?

966 2K

谷歌创始人拉里佩奇和谢尔盖布林需要一种算法来对页面进行排名并为用户提供最佳搜索结果:PageRank算法。使用 PageRank 算法,每个页面都会根据链接到它的其他页面的数量和重要性获得排名。页面排.

使用 PyMC 进行简单的欺诈检测

1443 5K

使用PyMC 和贝叶斯统计作为机器学习的替代方案。在我最近的一个项目中,我们面临着数据非常有限的预测问题。每组数据都需要花费专家数小时来编制,结果并不总是成功的。因此,我们正在寻找一种工具来满足这些要.

GraphGPT: 将非结构化自然语言转换为知识图

1702

GraphGPT将非结构化的自然语言转换为知识图谱。输入你最喜欢的电影的简介、维基百科上令人困惑的一段话或视频的文字记录,就可以生成实体及其关系的图形可视化。连续的查询可以更新图的现有状态或创建一个全.

​​​​​​​相关性并不意味着因果关系

1546 2K

相关性并不意味着因果关系(Correlation Does Not Imply Causation):描述了不能仅仅根据观察到的两个变量之间的关联或相关性来合法地推断它们之间的因果关系。两个事件相继发.

什么是过度拟合?

1937

过度拟合(Understanding Overfitting)是一种建模错误,当一个函数与一组有限的数据点过于紧密地拟合时就会发生。因此,该模型仅在参考其初始数据集时有用,而不是在参考任何其他数据集时.

查询引擎的工作原理

1086 2K

查询引擎是一种软件,可以对数据执行查询以生成问题的答案,例如: 今年到目前为止,我每月的平均销售额是多少? 过去一天我网站上最受欢迎的五个网页是什么? 网络流量与上一年相比如何逐月比较? 最广泛使用的.

知识图谱的作用

1482 1 2K
以下是一些知识图谱功能,您将通过使用语义知识图谱(RDF) 直接在数据层中“开箱即用”。1、知识的共同语言知识图谱为知识提供了一种通用语言。这意味着,您可以直接在数据层本身中表达介于命题逻辑和一阶逻辑.

数据科学的 5 个图算法

890 3K

图分析是未来!我们已经非常熟悉 Pandas 或 SQL 或任何其他关系数据库,这导致:我们习惯于在数据表的“记录行”中查看分析我们的产品用户,并将他们的属性作为列。但现实世界真的是这样吗?在互联世界.

2023年人工智能的8个预测

1468 6K

1、GPT-4 将在接下来的几个月内发布——是的,这将是一件大事。最近关于 GPT-4 的谣言四起,GPT-4 是下一代 OpenAI 强大的生成语言模型。预计 GPT-4 将在新年初发布,并代表相对.

机器学习中特征工程的最佳实践 - mark

837

特征工程是为表格数据构建出色模型的最重要部分。我重新审视了过去从事的数十个表格 ML 项目,并将我使用的技术提炼为可重复的、强大的流程。这是我发现的:先从让我们处理 NaN 开始:选项 #1:用有意义.

信息检索的几种方法

2179

信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将获得一个排名匹配的资源列表作为搜索结果。我们.

麦肯锡:人工智能在 2022 年的状态以及五年回顾

995

麦肯锡发布了 2022 年的 AI 状态以及过去五年的回顾。几个亮点 63%的受访者表示,他们预计他们的组织在未来三年内会增加对 AI 的投资。 如今,报告的收入影响最大的领域是营销和销售、产品和服务.

用知识图谱统一数据、云和人工智能 - Tony

924 3K

一个强大的想法已经慢慢建立了很多年,最初被称为语义网,后来又被称为关联数据。随着知识图谱的出现,这个想法终于迎来了它的时代。这些技术网络允许一个组织释放束缚在混乱的数据库中的 "自由能量",并将这种能.

如何构建连接数据目录? - Tony

985 7K

如何将组织中的所有数据连接在一起,同时将数据还能留在原处?什么是数据目录?Gartner 将数据目录定义为“通过发现、描述和组织数据集 [构建] 的数据资产清单。目录提供上下文,使数据分析师、数据科学.