• 表格格式是数据工具和语言与数据湖进行交互的方式,就像我们与数据库进行交互一样。表格格式允许我们将不同的数据文件抽象为一个单一的数据集,一个表格。 数据湖中的数据通常可以跨越多个文件。我们可以使用 Spark 和 Flink 等工具,使用 R、Pyt
  • 超快的查询执行引擎使用 Apache Spark 语言,并以 Arrow-DataFusion 为核心。 Apache Spark 的 Blaze 加速器利用本机矢量化执行来加速查询处理。它结合了 icon
  • “数据库”一词是否会在 5 到 10 年内慢慢演变成“分布式计算平台”?随着无服务器市场的扩大,更多的数据库解决方案开始考虑模块化架构,其中系统的各个组件都是分开的。这允许为每个无服务器租户分配此类组件的一个实例,从而在用户之间提供清晰的分离。这种分解数据库并模块化的解决方案也是使其 icon
  • 我们在过去一年看到的主要主题是整合。 1、数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。 这里值得一 icon
  • TokioSky 是一个流处理框架,用于构建并发和多阶段数据摄取和流处理,通过 Rust+Tokio 构建并发和多阶段数据摄取和数据处理管道。,TokioSky 让开发者可以高效地使用数据,有效地使用来自不同来源(称为生产者)的数据,例如 Apache Kafka、Apache Pu icon
  • 数据管道是任何公司数据基础架构中的关键组件。许多公司用来管理其数据提取和转换的一种框架是 Airflow。无论是 100% 使用 Airflow 及其各种运算符,还是使用 Airflow 编排其他组件,例如 Airbyte 和 icon
  • 最初,Airflow 有点像“超级 cron”,因此运行作业的方式与框架本身高度耦合。今天,您必须克服的最大挑战是消除调度和作业之间的耦合。 1)Airflow是一个编排框架,而不是一个执行框架:对于您的工 icon
  • 分区和分桶用于最大化收益,同时最小化不利影响。它可以减少洗牌的开销、序列化的需要和网络流量。 icon
  • 我在 Hadoop/Bigdata 的早期阶段开始研究数据管道,当时大数据是一个流行词。Apache Oozie (有人还记得 Oozie 吗?)是一种用于编排数据管道的 icon
  • 在 LinkedIn 的早期阶段(2010 年代初),公司发展非常迅速。为了跟上这种增长,他们在分析堆栈中利用了几个第三方专有平台。使用这些专有平台比拼凑现成的产品要快得多。LinkedIn 依靠 Informatica 和 Appworx 进行 icon
  • Snowflake 和 Debezium 在现代数据堆栈中获得了当之无愧的地位,现在很容易找到有关使用这些技术的在线资源。在这篇博客中,我们更进一步,回顾了我们(在 Shippeo)使用 Debezium 近乎实时地将大规模数据复制到 Snowflake 中学到的经验教训。数据是 S icon
  • AWS Redshift 是最早的云数据仓库之一,可以说是 Hadoop 之后的一代。Amazon Redshift 是云中完全托管的 PB 级数据仓库服务。该服务适用于小至几百 GB 的数据量,并且可以扩展到高达 PB 或更多的数据量,使您能够处理数据以识别您的业务或客户的新见解 icon
  • 在 Apple Silicon Mac 上的 Docker 容器中使用 Hadoop 执行 Python MapReduce 作业。 开始时需要的步骤是。安装 Apple Silicon的docker桌面。克隆这个 icon
  • 如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数十万 TB 的数据,访问正确的信息是保持相关性的关键。从原始、无组织的数据中提取相关信息的能力仍然是业务决策的关键要素。 icon
  • 机器学习是 Lyft 应用程序的支柱,Lyft 的 Feature Serving 服务负责为这些 ML 模型提供特征数据。 Lyft 如何使用 Flyte 和 Apache Flink 存储特征定义并将特征数据提取到服务中。 Lyft 如何使用 Redis、Dyna icon
  • 数据工程比 DS数据科学 更受欢迎。不幸的是,ML(过度)工程是造成这种情况的一个原因。以前可以使用 crontab 和 15 行 shell 自动化模型;而现在,你需要在你的 XGBoost 模型后面有一大堆 Airflow、Kafka、Snowflake、Spark、Stitch icon
  • 在本文中,我们继续研究如何提高Hadoop的性能,如何解决数据访问模式、集群内存和有效调度方面的数据定位问题。 在Hadoop集群中,用户通常根据他们的业务需求来访问数据,这使得一些数据比其他数据更容易被访问,这就是为什么我们把数据模式作为我们方法 icon