• 知识图不仅仅是一个知识库。它是一个图形说明,将组织的知识库反映为数据实体及其关系的数字网络。知识图谱的关键特性包括统一数据、集成数据源以及跨数据实体映射关系。 知识图谱已被证明对知识管理和数据分析具有革命性意义。知识图谱的主要用户包括希望从组织数据中发现有意义见解的行业。知识图能够以
  • 在我们深入了解什么是数字免疫系统(digital immune system)之前,让我们考虑一下免疫对一个生物体意味着什么。免疫力是指生物体对特定疾病的反应、回应和抵御能力,特别是对入侵的病原体的保护。  这通常是通过开发和部署对抗措施(又称抗体)来对抗外来入侵者来实现的。
  • 了解有关反向 ETL 的所有信息、它如何适应现代数据堆栈以及它与 ETL 的不同之处。 在过去的六年里,数据生态系统发生了巨大的变化,我们目睹了几种不同技术的兴衰。然而,有一个不变的东西保持不变:云数据仓库。 icon
  • Apache Pinot 是一个实时分布式 OLAP 数据存储,专为低延迟、高吞吐量分析而构建,非常适合面向用户的分析工作负载。Pinot 携手 Kafka 和 Presto 提供面向用户的分析。 如果您对 Apache Pinot 感到好奇但刚刚 icon
  • 知识图结合信息以创建描述不同实体之间关系的互连网络。它们目前简化了我们的许多日常数字体验,支撑着谷歌搜索、社交媒体网站和流媒体推荐引擎等应用程序。凭借其定义复杂和重叠关系的能力,例如,在细胞水平上可视化蛋白质和分子之间发生的数百种相互作用,知识图谱在生命科学中具有丰富的应用。如果使用得当,它 icon
  • 如果你已经有了大量的数据,而你仍然无法回答一个问题......更多的数据真的是你需要的吗?在这一点上,你并不是因为缺乏数据而无法解决你的问题。那么,为什么你会相信,有了更多的数据,你的问题就会得到解决? 用爱因斯坦的一句老话来说,"精神错乱的定义是 icon
  • 使用 Apache Pinot、Kafka 和 Debezium 构建可扩展的分析基础架构以提供低延迟的面向用户的分析这篇文章将是一篇很长的文章。所以让我总结一下重要的事情。 什么是面向用户的分析? 面向用户的分析的商业价值是什么 为什么很难实现面向用 icon
  • 信用卡是一个传统系统。它们对全球商业极为重要,但表现出路径依赖。它们的大部分幕后运作都来自50多年前做出的设计, Stripe正在为每个人升级这个关键系统。 考虑一下信用卡欺诈的情况。信用卡最初设计的核心动机用例是:”一个商务旅行者,在远离 icon
  • 如何将组织中的所有数据连接在一起,同时将数据还能留在原处? 什么是数据目录?Gartner 将数据目录定义为“通过发现、描述和组织数据集 [构建] 的数据资产清单。目录提供上下文,使数据分析师、数据科学家、 icon
  • 特征工程是为表格数据构建出色模型的最重要部分。我重新审视了过去从事的数十个表格 ML 项目,并将我使用的技术提炼为可重复的、强大的流程。这是我发现的: 先从让我们处理 NaN 开始:选项 #1:用有意义的值填充它们 如果“NaN 销售”意味 icon
  • Auto Trader的CDP是一个专门构建的实时数据库,它从我们的行为数据平台Snowplow获取跟踪事件:每次客户与 Auto Trader 网站或我们的本 icon
  • 在本文中,我们将了解模块化这一最重要的系统设计原则之一如何应用于 SQL。定义: 模块是一个单元,其元素与自身紧密相连,但与其他单元弱相连。 当系统在设计时考虑到模块化,独立方很容易并行构建这些组件,以便以后组装。它还使得在生产中调试和修复 icon
  • 在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由BI工具解决的,不如说是由人和流程解决的。 Creation > Ingestion > Wa icon
  • 在处理数据和分析用户与我们今天的产品的互动时,必须通过跟踪他们过去的行为来了解他们的行为,如打开通知、与博客互动或在平台上创建新的登录。在这种情况下,归因研究指的是将所有这些行为按特定模式组合在一起,以产生一个预期的最终结果的方法。 在本文的范围内 icon
  • 1.鸵鸟效应我们经常试图避免那些我们担心会给我们带来压力的信息。因此,账单和工作邮件仍然没有被打开,银行余额仍然没有被检查。这是适得其反的,因为忽视一个问题并不能消除问题或你的焦虑,它只会延长它们。 icon
  • 聚合数据能简化它,但让我们失去了信号和我们需要理解我们所看到的内容的上下文。 聚合是分析时间序列数据的标准最佳实践,但它会通过剥离关键上下文而产生问题,以至于您甚至不知道自己失去了多少潜在洞察力。在这篇文章中,我将首先讨论聚合如何成为问题,然后通过 icon
  • 在过去十年中,实时报告对于根据最新数据做出决策变得非常重要。客户和产品团队要求报告包含实时数据,以便他们能够做出最新的明智决策。GumGum使用实时数据 (1) 在为我们的活动提供服 icon
  • 当您开始看到核心数据团队之外的整个团队都在从事类似数据团队的工作时,情况会更加复杂。这些人通常被引入从事关键业务工作,例如制作预测模型来确定哪些支持代理应该在何时工作或构建数据模型来确定客户的信用评分。 如果做错了,这些团队会带来数据可靠性下降的风险,并可能降低整个公司的决策质量。  icon