• SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTunnel。SeaTunnel是一个非常好用的超高性能分布式数据集成平台,支持海量数
  • 深入了解 Airflow、Prefect 和 Dagster 以及三者之间的区别!互操作性目前还是现代数据技术的棘手的问题:数据管道仍然涉及不完全适合 ETL 工作流的自定义脚本和逻辑。无论是自定义内部服务,还是像下载文件、解压缩文件和读取其内容这样简单的事情,仍然需要编排工具。跨堆
  • 选择 ETL 解决方案的目标是确保数据以符合分析要求的速率进入 Hadoop,以及顶级 Hadoop 数据摄取工具, 如Apache Kafka、Apache NIFI (Hortonworks DataFlow)、Gobblin、Apache Flume 和 Apache Sqoop。 icon
  • Hadoop是由 Apache 软件基金会开发的平台,是一种流行的开源大数据平台,用于跨计算机集群对大型数据集进行分布式处理。Apache Hadoop 中的每个系统都充当存储设备和计算平台。它是开发人员构建大数据解决方案最广泛使用的平台之一。以下是前 12 家 Hadoop 技术公 icon
  • 有两个级别的实时机器学习。 级别1:您的 ML 系统进行实时预测(批量预测)。 级别2:您的系统可以合并新数据并实时更新您的模型(实时学习)。 阶段 1. 批量预测所有的 icon
  • 本文将对这两个数据库进行全面分析并给出差异。此外,本文还将为您简要概述这两个数据库及其功能。Redis 和 MongoDB 的区别性能与 MongoDB 相比,Redis 可以更轻松地处理大量工作负载。Redis 运行在单核上;因此它是单线程的。因此,在性能方面,Re icon
  • 数据也以不同的格式存在,如结构化数据、半结构化数据和非结构化数据。大数据分析是一个用于提取有意义的见解的过程,例如隐藏的模式、未知的相关性、市场趋势和客户偏好。大数据分析提供了各种优势——它可以用于更好的决策、防止欺诈活动等等。数据在转化为有助于管理层决策的有用信息和知识之前是没有意 icon
  • Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化,但它缺乏一个有效的全局调度程序,可以将资源划分为逻辑分组。Kubernetes 设计允许多个调度程序在集群中运行。每个调度程序都 icon
  • 数据已成为任何技术应用的基石,因此需要可靠、高效地存储和访问数据。存储相关技术对存储创新的需求不断增长,从而产生了不同的存储方法来满足消费者和企业的需求。在这篇文章中,我们将研究以下存储技术,同时比较它们的特性和用例。 直连存储 (DAS) 网络附加存储 (NAS) icon
  • 28. SiSenseSiSense是一个很好的选择,很多经验丰富的商业智能 (BI) 工具用户都接受它,因为它具有如此多的综合功能。这是满足您几乎所有需求的绝佳选 icon
  • Apache Superset 被Airbnb等企业使用,使用 Kubernetes 作为 Superset 的 PaaS,每天为 600 多名活跃用户提供查看超过 10 万张图表的服务。 使用云原生CloudNative架构Web 服务器(Gunicorn、Nginx、Ap icon
  • 消息传递模型是用户在选择流式消息传递系统时应该考虑的第一件事。消息传递模型应涵盖以下 3 个方面: 消息消费 - 消息是如何发送和消费的? 消息确认 - 如何确认消息? 邮件保 icon
  • 对于外行来说,数据存储通常在传统数据库中处理。但是对于大数据,公司使用数据仓库和数据湖。 什么是数据库?数据库是存储结构化数据的存储位置。我们通常会想到计算机上的数据库——保存数据,可以通过多种方式轻松访问。可以说,您可以将智能手机本 icon
  • 传统OLAP和OLTP是分离,数据是从业务数据存储库中提取,然后将其存储在数据湖中,下一步就是进行ETL数据提取转换和分析,然后,将这些数据的关键子集转移到数据仓库中,以生成用于决策的业务洞察力。这样做的问题有: 可维护性差:由于存在数据湖和 icon
  • 今天云原生技术的大数据中心取代了Hadoop,Kubernetes 取代了 YARN 作为工作负载编排器,亚马逊S3 兼容的对象存储取代了 HDFS 来存储海量数据。但是在 2011 年,Hadoop是大数据酷炫的前沿。Hadoop(当时称为 Nutch)由 Doug Cutting icon
  • XLearning是一个结合大数据和人工智能的便捷高效的调度平台,支持多种机器学习、深度学习框架。XLearning 在 Hadoop Yarn 上运行,并集成了 TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost 等深度学习框架。XLea icon
  • 自全球大流行开始以来,PayPal 经历了创纪录的增长,这给用于合规、风险处理、产品和财务分析、营销、客户成功和欺诈保护的离线分析系统带来了很大压力,这些分析系统都在本地数据中心。这些系统由 Teradata 和 Hadoop 作为核心提供支持,并配备了额外的软件和工作流来管理这些系统中的资 icon
  • 在 AI/ML 世界中并行计算的知识有多大用处或适用性?AI/ML世界中有模型并行和数据并行,当你使用 Tensorflow 或 PyTorch 时,你就会知道它们背后的场景。因此,在实现自己的数据加载器或模型训练器时,您可能会编写更好的代码。如果您主要使用预先训练的模型,或 icon