SeaTunnel用于海量数据的同步和转换

22-01-13 banq

SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。

SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTunnel。

SeaTunnel是一个非常好用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可以稳定高效地同步数百亿数据,已应用于近百家企业的生产中。

SeaTunnel会尽力解决海量数据同步中可能遇到的问题:

  • 数据丢失和重复
  • 任务累积和延迟
  • 低吞吐量
  • 长周期应用于生产环境
  • 缺乏应用运行状态监控

SeaTunnel 使用场景

  • 海量数据同步
  • 海量数据整合
  • 具有海量数据的 ETL
  • 海量数据聚合
  • 多源数据处理

特点

  • 简单易用,配置灵活,低代码开发
  • 实时流式传输
  • 离线多源数据分析
  • 高性能、海量数据处理能力
  • 模块化和插件机制,易于扩展
  • 支持SQL数据处理和聚合
  • 支持 Spark 结构化流
  • 支持 Spark 2.x

数据处理管道由多个过滤器构成,以满足各种数据处理需求。如果习惯SQL,也可以直接通过SQL构建数据处理管道,简单高效。目前,SeaTunnel 支持的过滤器列表还在扩展中。此外,您可以开发自己的数据处理插件,因为整个系统易于扩展。

SeaTunnel 支持的插件

  • 输入插件 Fake、File、Hdfs、Kafka、Druid、S3、Socket、自研输入插件
  • 过滤器插件 Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自研过滤器插件
  • 输出插件 Elasticsearch、File、Hdfs、Jdbc、Kafka、Druid、Mysql、S3、Stdout、自研输出插件

中文文档

猜你喜欢