数据科学教程

GraphGPT: 将非结构化自然语言转换为知识图

GraphGPT将非结构化的自然语言转换为知识图谱。输入你最喜欢的电影的简介、维基百科上令人困惑的一段话或视频的文字记录，就可以生成实体及其关系的图形可视化。连续的查询可以更新图的现有状态或创建一个全新的结构。例如，更新当前状态可能涉及通过节点和

分子生物学中的大语言模型

分子生物学的中心法则描绘了从基因组到基因表达和随后的蛋白质生产的分子信息流，蛋白质是生命的基本组成部分。基因组中有大约20，000个基因，这些基因是负责蛋白质合成的DNA片段。大约1%的基因组编码蛋白质，而其余部

时间旅行助推器如何加速 AGI 开发？ - Carlos E. Perez

CS Peirce（皮尔士）在 100 多年前发明了一种终极的“时间旅行逆转”。皮尔士是一位哲学家和逻辑学家，以其在数学基础和科学哲学方面的工作而闻名。在他的著作中，皮尔士勾勒出任何科学发现的框架，他称之为架构学Architectonic 。 A

pandas 2.0 新变化

Pandas 2.0来了!这是自Pandas诞生以来最大的一次大修，而且已经酝酿了多年。然而，你可能不会注意到太多的变化，你现有的Pandas代码很可能会像以前一样运行。所有的主要变化都在引擎盖下。<

什么是AI矢量数据库？

对于涉及大型语言模型、生成式人工智能和语义搜索的应用程序来说，高效的数据处理变得比以往任何时候都更加重要。所有这些新应用程序都依赖于矢量嵌入（vector embeddings），这是一种数据表示形式，其中包含语义信息，这对于人工智能获得理解并维持在执行

什么是 PageRank 算法？

谷歌创始人拉里佩奇和谢尔盖布林需要一种算法来对页面进行排名并为用户提供最佳搜索结果：PageRank算法。

BloombergGPT：金融领域的大语言模型

NLP 在金融技术领域的应用广泛而复杂，应用范围从情感分析和命名实体识别到问答。大语言模型 (LLM) 已被证明对各种任务有效；但是，文献中没有报道过专门针对金融领域的LLM。在这项工作中，我们展示了 BloombergGPT，这是一个 500

MotherDuck：大数据已死

十多年来，人们很难从他们的数据中获得可操作的洞察力，这一事实被归咎于其规模。诊断结果是 "你的数据对你那微不足道的系统来说太大了"，而治疗方法是购买一些能够处理大规模的新的花哨的技术。当然，在大数据工作组购买了所有新的工具并从遗留系统迁移之后，人们发现他们仍然难以理解他们的数据。 <

OpenAI推出ChatGPT企业版

ChatGPT企业版现已推出，其功能如下： - 无限制访问GPT-4（无使用上限） - 针对GPT-4的更高速度性能（最多快2倍） - 无限制访问高级数据分析（代码解释器） - 32 k令牌上下文窗口，用于4倍长的输入、文件或后续操作 - 可共

OpenAI向ChatGPT Plus用户推出Code Interpreter

这是OpenAI自GPT-4以来发布的最强大的功能。让每个人都成为数据分析师以下是Code Interpreter的15个令人兴奋的用例： 1、在几秒钟内细分您的客户需要一个电子表格，然后自行得出音乐市场的不

用知识图谱提取专业文献关键词

简洁地可视化和总结或“压缩”大约 10,000 个单词的百科全书式哲学文章，仅包含一组 24 个最常用的非通用单词。使用的主要工具是来自 Wolfram Function Repository 的

揭密Tweepcred：Twitter推荐引擎背后的力量

您已经在 Twitter 上看到一些人具有某种影响力，他们的推文以近乎神奇的效率获得点赞、转发和回复。但是你有没有想过这种影响力是什么？今天，我们将深入 Tweepcred 的神秘世界，这是计算用户在 Twitter 上的声誉的幕后服务。您无需成

ChatGPT这样的LLM成功的三个辅助因素

虽然像ChatGPT这样的LLM的成功很大程度上是由于RLHF的使用，但现代LLM所基于的预先训练的基础模型近年来也通过以下三个简单的更改而变得更好.. 1.放大模型（深度和宽度）当我们从GPT发展到GPT

临床决策转换器：一种推荐系统

临床决策转换器：一种推荐系统，其将期望范围的临床状态作为"目标"，并输出用于患者的药物序列。随着最近在需要上下文感知的任务中取得的成就，已采用基础模型来处理来自电子健康记录 (EHR) 系统的大规模数据。然而，以往基于基础模型的临床推荐系统模仿临

使用 PyMC 进行简单的欺诈检测

使用PyMC 和贝叶斯统计作为机器学习的替代方案。在我最近的一个项目中，我们面临着数据非常有限的预测问题。每组数据都需要花费专家数小时来编制，结果并不总是成功的。因此，我们正在寻找一种工具来满足这些要求，因为人工智能无法通过有限数量的原始数据进行

什么是过度拟合？

过度拟合（Understanding Overfitting）是一种建模错误，当一个函数与一组有限的数据点过于紧密地拟合时就会发生。因此，该模型仅在参考其初始数据集时有用，而不是在参考任何其他数据集时有用。（例如某套机器学习系统在测试阶段用测试数据准确率高，但是进入生产领域，

查询引擎的工作原理

查询引擎是一种软件，可以对数据执行查询以生成问题的答案，例如：今年到目前为止，我每月的平均销售额是多少？过去一天我网站上最受欢迎的五个网页是什么？网络流量与上一年相比如何逐月比较？最广泛使用的查询语言是