SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。
SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名为 SeaTunnel。
SeaTunnel是一个非常好用的超高性能分布式数据集成平台,支持海量数据的实时同步。每天可以稳定高效地同步数百亿数据,已应用于近百家企业的生产中。
SeaTunnel会尽力解决海量数据同步中可能遇到的问题:
- 数据丢失和重复
- 任务累积和延迟
- 低吞吐量
- 长周期应用于生产环境
- 缺乏应用运行状态监控
SeaTunnel 使用场景
- 海量数据同步
- 海量数据整合
- 具有海量数据的 ETL
- 海量数据聚合
- 多源数据处理
特点
- 简单易用,配置灵活,低代码开发
- 实时流式传输
- 离线多源数据分析
- 高性能、海量数据处理能力
- 模块化和插件机制,易于扩展
- 支持SQL数据处理和聚合
- 支持 Spark 结构化流
- 支持 Spark 2.x
数据处理管道由多个过滤器构成,以满足各种数据处理需求。如果习惯SQL,也可以直接通过SQL构建数据处理管道,简单高效。目前,SeaTunnel 支持的过滤器列表还在扩展中。此外,您可以开发自己的数据处理插件,因为整个系统易于扩展。
SeaTunnel 支持的插件
- 输入插件 Fake、File、Hdfs、Kafka、Druid、S3、Socket、自研输入插件
- 过滤器插件 Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自研过滤器插件
- 输出插件 Elasticsearch、File、Hdfs、Jdbc、Kafka、Druid、Mysql、S3、Stdout、自研输出插件
中文文档