• 2006 年,《纽约杂志》数字团队开始为其时装周门户网站打造全新的搜索体验。这是一个甚至没有与技术团队讨论过技术可行性的项目,这在当时很常见。敏捷技术尚属新生事物,更不用说在出版业了。这只是一个愿景,一个真正的 "月球计划",需要 10 到 12 周的时间来开发产品的线框图版本。几乎没有时间
  • ScratchDB 是 Clickhouse 的包装器,BigQuery、Redshift 和 Snowflake 的开源替代品。 ScratchDB可让您输入任意 JSON 并对其执行分析查询。添加新数据时,它会自动创建表和列。 icon
  • 变更数据捕获 (CDC) 是数据工程中的强大工具,在过去几年中在各种组织中得到了巨大的应用。这是因为它能够以非常低的延迟将事务数据库紧密集成到您企业中的许多其他系统中。 CDC 对事务数据库中发生的更改(例如插入、更新和删除)做出响应,并将这些更改实时发送 icon
  • OpenTelemetry Collector 和 Apache Kafka 之间的选择不是零和游戏。每个都有其独特的优势,甚至可以在某些架构中相互补充。OpenTelemetry Collector 擅长数据收集、压缩和过滤,使其成为减少系统内延迟并在数据到达后端之前提高数据质量的有力候选 icon
  • 矢量包处理 (VPP) 是一种开源软件,可以通过批处理数据包和使用 SIMD 指令等技术在商用硬件上提高吞吐量。 矢量包处理 (VPP) 是一种在软件中高速处理数据包的技术。它将数据包处理从内核移到用户空间以获得更好的性能。 icon
  • 是否存在这样的情况:数据库中的记录被插入、更新或删除,但 Debezium 无法从事务日志中捕获该事件并将其传播到下游消费者? 一般来说,Debezium 本身绝不会错过任何事件。如果确实如此,则被认为是一个阻碍性错误,开发团队将优先解决该错误。D icon
  • ArcticDB 是一个为 Python 数据科学生态系统构建的高性能、无服务器 DataFrame 数据库。 ArcticDB by Man Group 一个Python API,利用快速C++数据处理 icon
  • 1、业务领域与数据工程脱节:业务中没有人愿意掌握数据的所有权,包括数据的生成方式、业务规则是什么等。 2、上游分析师是否负责 QA?常见的工作流程是分析师试图解决问题,遇到数据质量问题,然后无法证明或证明结果的合理性。 icon
  • 在 Netflix,我们的会员和财务数据工程团队利用与计划、定价、会员生命周期和收入相关的各种数据来推动分析、为各种仪表板提供支持并做出基于数据的决策。 Netflix 财务报告中的许多指标均由我们团队的努力提供支持和协调!鉴于我们在这条关键路径上 icon
  • 使用 Go 通道从拉推模型转向更高效的流方法。这通过重叠拉取和推送阶段来提高性能,减少总体处理时间和延迟。 Go通道提供数据同步、资源管理和并发处理。它们允许 goroutine 安全地通信和交换数据。这些源实现了每秒 10-12k 事务的吞吐量, icon
  • 企业的运营依赖于数据——最好的组织都拥有强大的数据战略。Salesforce中的企业数据架构是:用于指导 Salesforce 组织中的数据管理的核心设计原则和框架。它可以帮助您确定数据的存储位置、数据的组织方式以及数据如何在您的系统中流动,最终使您能够为您的业务做出更好的决策。 < icon
  • Pandas 通常以其标志性的黑白熊标志为标志,是 Python 数据分析生态系统中最受欢迎的库之一。自诞生以来,它从根本上改变了 Python 中数据操作和分析的格局。但为什么它获得了如此巨大的人气呢?从本质上讲,Pandas 提供了灵活高效的结构来组织和操作大型数据集,弥合了 Python 和广 icon
  • 在 Uber,我们构建了一个名为“Healthline”的系统,以帮助解决平均检测时间 ( MTTD ) 和平均解决时间 ( MTTR ) 问题,并避免潜在的中断和大规模用户影响。由于我们能够实时检测问题,这已成为发布经理观察金丝雀发布的影响并决定是否进一步进行或回滚的首选工具。  icon
  • 这篇博文探讨了 2023 年游戏行业的数据流状态。包括来自 Kakao Games、Mobile Premier League (MLP)、Demonware / Blizzard 等的客户案例。 休闲和在线游戏、电子竞技、社交平台、赌博和新商业模式的发展 icon
  • 数据流处理可分为三个不同的数据处理阶段: 收集 处理 呈现 让我们更详细地了解这三个阶段,并举例说明。 步骤 1:收集数据要处理数据流,首先需要数据流!幸运的是,几 icon
  • 这篇博文探讨了 2023 年保险行业的数据流状态。索赔处理、客户服务、远程信息处理和新业务模式的发展需要实时的端到端可见性、可靠且直观的B2B 和 B2C 通信,并与人工智能/机器学习等前沿技术集成以进行图像识别。数据流允许实时集成和关联任何规模的数据,从而以更具成本效益的方式改进保险行业的大多数业 icon
  • 这篇博文探讨了 2023 年能源和公用事业行业的数据流状态。公用事业基础设施、能源分配、客户服务和新业务模式的发展需要实时的端到端可视性、可靠且直观的B2B 和B2C 通信,以及与 5G 等先锋技术的集成以实现低延迟或增强现实以实现创新。数据流允许实时集成和关联任何规模的数据,以改善能源领域的大多数 icon