• 如今流处理越来越流行,例如Apache Kafka, Apache Samza, Apache Storm, Apache Spark的Streaming模块等等,云服务还有类似Google Cloud Dataflow。
  • Drivetribe是由前Top Gear三剑客克拉克森、哈蒙德和梅创办的在线垂直汽车社区, Aris Koliopoulos作为其高级软件工程师,所在团队负责从无到有建立这样一个社区产品,目标是从一开始就可以处理高用户量和大规模运行,因为这是一项明星产品,一旦上线会立即吸引大量粉丝,因此不得不对D
  • 在本文中,我们将讨论如何使用Apache Flink和Apache Ignite构建数据流应用程序。构建数据流应用程序可以以优化和容错的方式将大量有限和无限量的数据提取到Ignite集群中。数据摄取率非常高,每秒可以扩展到数百万个事件。 Apache Ig icon
  • 在Deep.BI上,我们能够解决的最艰巨的挑战之一就是如何基于数十亿个数据点实时提供可自定义的洞察力,这些洞察力可以从单个角度全面扩展到多达数百万个用户。在Deep.BI,我们跟踪用户习惯,参与度,产品和内容性能-每天处理多达TB或数十亿个事件。我们的目标是根据来自各种自行创建维度的 icon
  • Uber 的实时数据基础设施: Apache Kafka 用于流式存储, Flink 用于流处理, Pinot 用于 OLAP, HDFS 用于归档存储, Presto 用于交互式查询 < icon
  • 广告技术(Ad Tech)是一个统称,它描述用于管理和分析程序化广告活动的系统和工具。数字广告的目标是尽可能多地吸引相关受众。因此,广告技术本质上与处理大量数据有关。在此博客文章中,我们将研究如何关联两个事件流-广告投放(所谓的展示次数)和点击次数,并计算重要的广告技术指标-点击率( icon
  • Apache Flink与Kafka Stream都能实现流处理,但在一些重要方面有所不同。下面是从用户的角度出发的,不涉及实现细节: 支持的流平台不同 作为的Apache Kafka项目的 icon
  • 如今,流处理是一个非常流行的话题。公司处理成千上万个需要实时或近实时处理的事件。企业需要分析客户的行为,交易,股票价格变化甚至自动驾驶汽车传感器读数。但是,今天,我们要专注于 icon
  • Akka的新许可证给Apache Flink带来了许多问题,因为它在内部使用Akka 进行集群协调。但是,Apache Flink的许可证不会改变。将不会再使用 Akka 2.7+,这将确保用户不受影响。 Flink 没有任何直接的危险,我 icon
  • 在 DoorDash,实时事件是深入了解我们业务的重要数据源,但构建能够处理数十亿实时事件的系统具有挑战性。事件由我们的服务和用户设备生成,需要处理并传输到不同的目的地,以帮助我们在平台上做出数据驱动的决策。举几个用例: 几乎所有的事件都需要传输到我们的 icon
  • 数据倾斜是指数据集的不平衡分布。这种不平衡通常是通过特定指标或领域的镜头观察到的。我们可以说一个国家的人口数据集在按人口中心分组时是有偏差的(假设更多的人住在几个大城市,而其他地方的人口较少)。 这本身并不是一件坏事。大多数数据集都有不可避免的固有 icon
  • 分布式有状态流处理具有挑战性,尤其是在处理故障和恢复方面。在流处理中,最常被问到的问题之一是“我的流处理系统是否保证每条记录都被处理一次且仅一次,即使在处理过程中遇到一些故障?” 通过“ exactly-once(精确一次)”语义,我的意思是每个传 icon
  • Apache Flink是一个大数据处理框架,允许程序员以非常有效和可扩展的方式处理大量数据。这是Eta中的一个简单的WordCount示例。Maven依赖 icon
  • Arroyo 0.10 拥有一个使用 Apache Arrow 和 DataFusion 构建的全新 SQL 引擎。它更快、更小、更容易运行。 这篇文章将详细介绍 Arroyo 当前的实现以及为什么会发生变化,但简而言之: 性能:A icon
  • 数据管道中的数据合约是什么?如何实施? 最简单的数据合同是数据生产者和数据消费者之间就所生产的数据应是什么样子、应满足什么 SLA 以及其语义达成的协议。 数据合约是一种含有以下元数据结构: 生产 icon
  • 数据流处理可分为三个不同的数据处理阶段: 收集 处理 呈现 让我们更详细地了解这三个阶段,并举例说明。 步骤 1:收集数据要处理数据流,首先需要数据流!幸运的是,几 icon
  • 在大数据时代,实时洞察是保持领先的关键。但是如何利用不断流动的数据流的力量呢? Apache Kafka 和 Apache Flink登场,这对实时数据处理带来革命性变革的梦之队。 这对充满活力的二人组协同工作, icon
  • 数据变更事件是Debezium等变更数据捕获 (CDC) 解决方案的核心。它们描述对数据库中特定记录所做的更改,并允许事件使用者根据此信息采取行动,从而实现广泛的用例,例如实时 ETL(通过将更新的数据传播到下游数据存储,例如数据仓库、分析数据库或全文搜索索引)、微服务数据交换或审计日志记录 icon