当前位置:网站首页>数据治理方案技术调研 Atlas VS Datahub VS Amundsen

数据治理方案技术调研 Atlas VS Datahub VS Amundsen

2020-11-11 09:29:15 程序猿欧文

数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

​ 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。

数据发现平台可以解决的问题

为什么需要一个数据发现平台?

在数据治理过程中,经常会遇到这些问题: 数据都存在哪? 该如何使用这些数据? 数据是做什么的? 数据是如何创建的? 数据是如何更新的?

。。。。。

数据发现平台的目的就是为了解决上面的问题,帮助更好的查找,理解和使用数据。

比如Facebook的Nemo就使用了全文检索技术,这样可以快速的搜索到目标数据。

用户浏览数据表时,如何快速的理解数据? 一般的方式是把列名,数据类型,描述显示出来,如果用户有权限,还可以预览数据。

下面是Amundsen的数据列展示功能。

数据ETL是一个大问题,特别是如何把这些展示出来更是非常难,其实数据的ETL是可以用数据的流向图表示的,很多平台都支持这种功能,比如 Databook,还有Metcat。

Amundsen就和数据调度平台Airflow有着非常好的结合。

数据发现平台对比

下面一张表 对比一下各大平台对于上述功能的支持情况

搜索 推荐 表描述 数据预览 列统计 占用指标 权限 排名 数据血统 改变通知 开源 文档 支持数据源
Amundsen (Lyft) Todo Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc.
Datahub (LinkedIn) Hive, Kafka, RDBMS
Metacat (Netflix) Todo Todo Hive, RDS, Teradata, Redshift, S3, Cassandra
Atlas (Apache) HBase, Hive, Sqoop, Kafka, Storm
Marquez (Wework) S3, Kafka
Databook (Uber) Hive, Vertica, MySQL, Postgress, Cassandra
Dataportal (Airbnb) Unknown
Data Access Layer (Twitter) HDFS, Vertica, MySQL
Lexikon (Spotify) Unknown
这里介绍一下五个开源的解决方案

DataHub (LinkedIn)

LinkedIn开源出来的,原来叫做WhereHows 。经过一.........

版权声明
本文为[程序猿欧文]所创,转载请带上原文链接,感谢
https://my.oschina.net/mikeowen/blog/4712054

随机推荐