• 实时数据胜过慢速数据。几乎每个用例都是如此。然而,企业架构师使用 Lambda 架构构建新的基础架构,其中包括单独的批处理层和实时层。这篇博文探讨了为什么称为 Kappa 架构的单个实时管道更适合。迪斯尼、Shopify 和优步等公司的真实示例探索了Kappa的好处,但也展示了批处理如何在不
  • PGSync是一个变更数据捕获工具,用于将数据从Postgres转移到Elasticsearch。它允许你保留Postgres作为你的真实来源,并在Elasticsearch中公开结构化的非规范化文档。这对于构建后端服务以驱动文本搜索应用或构建实时仪表盘应用非常有用。对嵌套实 icon
  • 我们生活在一个技术时代,大数据、物联网、机器学习都已成为不可避免的现实。在当今世界,决策过程依赖于可以跨越各种数据源(例如社交媒体、日志文件、传感器数据等)的数据。虽然数据的异构性增加了多方面,但随之而来的是快速反应的需求。现代软件架构旨在满足这个不断变化的商业世界中的此类需求。随着 icon
  • 下面我们分享“基本”数据平台的样子,并列出每个空间中的一些热门工具:数据摄取 与几乎所有现代数据平台的情况一样,需要将数据从一个系统摄取到另一个系统。随着数据基础设施变得越来越复杂,数据团队面临着从各种来源摄取结构化和非结构化数据的挑战性任务 icon
  • CDC(Change Data Capture) 是一个软件过程,它捕获源数据库中所做的更改( icon
  • Apache Heron是实时、分布式、容错的流处理引擎。自 2014 年以来,Heron 为 Twitter 的各种用例提供​​了所有实时分析的支持。事件报告下降了一个数量级,证明了经过验证的可靠性和可扩展性。从一开始,Heron 就被设想为一种新型的流处理系统,旨在满足最苛刻的技 icon
  • KoP(Kafka on Pulsar) 2.8.0 支持连续偏移,现在可以投入生产。默认情况下,Pulsar broker 只支持 Pulsar 协议。通过协议处理程序,Pulsar broker 可以支持其他消息协议,包括 Kafka、AMQP 和 MQTT。这允许 Pulsar icon
  • 大多数流数据技术需要开发人员的思维方式不同于使用传统关系数据库的思维方式。但是现在,专注于时间序列数据库的初创公司Deephaven Data Labs发布了Deep icon
  • 文字不足以说明数据的重要性以及将其转换为有助于改进决策的形式的需要。当您拥有合适的数据分析工具时,将原始数据转换为有助于管理层做出更好决策的形式并不是一项艰巨的任务。这就是为什么依靠良好的数据分析工具至关重要。关于这一点,请查看 2022 年面向专业人士的 10 大大型分析工具。 < icon
  • Hadoop 是一个用于存储数据和运行应用程序的框架。为任何类型的数据提供大容量存储是其主要功能之一。此外,它具有强大的处理能力,因此它能够一次处理多个并发任务。 Hadoop 模块 Hadoop 分布式文件系统 (HDFS) icon
  • 当您将遥测数据发送到 Honeycomb 时,Honeycomb 的基础架构需要先缓冲您的数据,然后再在我们的“检索器”列式存储数据库中进行处理。在 Honeycomb 的整个存在过程中,我们一直使用 Apache Kafka在我们的可观察性管道中执行此缓冲功能。在这篇博文中,我们将 icon
  • 调度是指在特定时间或特定时间间隔后执行任务,以带来减少时间、减少资源、最大化吞吐量的好处。调度的诞生是为了处理诸如收集每日报告、每月报告或在一段时间后处理数据之类的任务。Spring 提供了一组大部分位于spring-context模块中的注解、类和接口。它们都放在名为org.spr icon
  • Hadoop不是数据库,它是一种具有称为 HDFS 的文件系统的架构。数据存储在没有任何预定义容器的 HDFS 中。关系数据库将数据存储在预定义的容器中。 什么是大数据? icon
  • 生产 Hadoop 部署支持哪些操作系统?主要支持的操作系统是 Linux。但是,通过一些额外的软件,Hadoop可以部署在 Windows 上。namenode的作用是什么?namenode 是Ha icon
  • Hadoop可以运行的三种模式是什么?Hadoop icon
  • 2022年学习数据科学的技巧: Python R NumPy Pandas Flask Scikit-Learn TensorFlow Big Data Linear Algebra线性代数 Interm icon
  • 通过广泛的数据质量、准确性和异常检查获得对数据的信任。Airbnb 已经开始了一个大规模的项目,以确保整个公司的数据可信。为了使员工能够更快地利用数据做出决策并为业务指标监控提供更好的支持,我们引入了 icon