• “数据库”一词是否会在 5 到 10 年内慢慢演变成“分布式计算平台”?随着无服务器市场的扩大,更多的数据库解决方案开始考虑模块化架构,其中系统的各个组件都是分开的。这允许为每个无服务器租户分配此类组件的一个实例,从而在用户之间提供清晰的分离。这种分解数据库并模块化的解决方案也是使其
  • 表格格式是数据工具和语言与数据湖进行交互的方式,就像我们与数据库进行交互一样。表格格式允许我们将不同的数据文件抽象为一个单一的数据集,一个表格。 数据湖中的数据通常可以跨越多个文件。我们可以使用 Spark 和 Flink 等工具,使用 R、Pyt icon
  • 通过流处理,我们可以在数据可用时持续处理数据我们以事件流的形式从事件源(例如数据库)实时捕获数据,并将数据移动到目标系统(例如数据仓库和数据库)。 什么是事件?事件就是你将数据概念化的时候。我这么说是什么意思?考虑一下下面的 icon
  • Pandas 是最著名的用于处理结构化数据的 Python 库。从科学家的一次性分析到完整的生产数据管道,它可以在任何地方使用,以实现数据清理、操作和分析的自动化。它的流行可以归因于它的易用性以及它建立在 Python 之上的事实,Python 是最流行的编程语言之一,学习曲线相对较低。</ icon
  • 我们在过去一年看到的主要主题是整合。 1、数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。 这里值得一 icon
  • Presto和 Apache Kafka  在 Uber 的大数据堆栈中发挥着关键作用。Presto 是查询联合的事实标准,已用于交互式查询、近实时数据分析和大规模数据分析。Kafka 是支持许多用例的数据流的骨干,例如发布/订阅、流处理等。 icon
  • TokioSky 是一个流处理框架,用于构建并发和多阶段数据摄取和流处理,通过 Rust+Tokio 构建并发和多阶段数据摄取和数据处理管道。,TokioSky 让开发者可以高效地使用数据,有效地使用来自不同来源(称为生产者)的数据,例如 Apache Kafka、Apache Pu icon
  • 两个月前我组装了ngods(新一代开源数据堆栈),并从那时起将它用于我的朋友的两个项目。 icon
  • 分区和分桶用于最大化收益,同时最小化不利影响。它可以减少洗牌的开销、序列化的需要和网络流量。 icon
  • Joey Lynch 是 Netflix 的高级软件工程师,负责云数据工程。他花费大量时间在数据库之间移动数据以及对数据进行散列/压缩。根据他的所有经验,他写了一篇很棒的博客文章,介绍了您必须处理数据的一些常见任务,他谈到了最好的算法、最差的算法以及预期的性能差异: icon
  • 在本文中,您将学习如何在 Kubernetes 上运行ksqlDB并将其与 Spring Boot 一起使用。您还将了解如何基于 icon
  • 在 LinkedIn 的早期阶段(2010 年代初),公司发展非常迅速。为了跟上这种增长,他们在分析堆栈中利用了几个第三方专有平台。使用这些专有平台比拼凑现成的产品要快得多。LinkedIn 依靠 Informatica 和 Appworx 进行 icon
  • Apache Airflow是一个编排平台,支持工作流的开发、调度和监控。在 Shopify,我们已经在生产环境中运行 Airflow 两年多,用于各种工作流程,包括数据提取、机器学习模型训练、Apache Iceberg 表维护和DBT 驱动的数据建模。在撰写本文时,我们目前在 Kuber icon
  • 在 Apple Silicon Mac 上的 Docker 容器中使用 Hadoop 执行 Python MapReduce 作业。 开始时需要的步骤是。安装 Apple Silicon的docker桌面。克隆这个 icon
  • 在 Pinterest,Logging Platform 团队维护着每天摄取数 TB 数据的数据摄取基础设施的骨干。 MemQ:使用 Netty 实现内存高效的批量数据交付 icon
  • 数据领域充斥着供应商、行业专家,甚至是记者,他们支持将存储和计算解耦的优点。毕竟,解耦的方法更容易独立地扩展计算和存储,它既适合云的业务模型,也适合其对象存储架构。但这里有一点通常不会大声说出来:解耦存储通常不利于查询性能。如果您希望查询(尤其是可操作的查询)快速运行,则将数据定位在 icon