Apache Atlas为企业提供元数据管理和治理能力


当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。
Apache Atlas于2017年6月毕业,成为Apache的一个顶级项目。IBM写了一篇关于Apache Atlas在开放生态系统中的作用的优秀文章。

Atlas 是一套可扩展和可扩展的核心基础治理服务——使企业能够有效且高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。
Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。

特征
元数据类型和实例

  • 各种 Hadoop 和非 Hadoop 元数据的预定义类型
  • 能够为要管理的元数据定义新类型
  • 类型可以有原始属性、复杂属性、对象引用;可以从其他类型继承
  • 类型的实例(称为实体)捕获元数据对象详细信息及其关系
  • 使用类型和实例的 REST API 允许更轻松的集成

分类
  • 能够动态创建分类 - 如 PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE
  • 分类可以包含属性——比如 EXPIRES_ON 分类中的 expiry_date 属性
  • 实体可以与多个分类相关联,从而更容易发现和安全实施
  • 通过沿袭传播分类 - 自动确保分类在数据经过各种处理时遵循数据

沿袭
  • 直观的 UI,可在数据通过各种流程时查看数据沿袭
  • 用于访问和更新沿袭的 REST API

搜索/发现

  • 直观的用户界面,可按类型、分类、属性值或自由文本搜索实体
  • 丰富的 REST API 可按复杂条件进行搜索
  • SQL 之类的查询语言来搜索实体 - 领域特定语言 (DSL)

安全和数据屏蔽
  • 元数据访问的细粒度安全性,支持对实体实例的访问和添加/更新/删除分类等操作的控制
  • 与 Apache Ranger 的集成支持基于与 Apache Atlas 中的实体关联的分类对数据访问进行授权/数据屏蔽。例如:
    • 谁可以访问分类为 PII、敏感的数据
    • 客户服务用户只能看到归类为 NATIONAL_ID 的列的最后 4 位数字

详细点击标题