️ 写在前面参与规则!!!
参与方式:关注博主、点赞、收藏、评论,任意评论(每人最多评论三次)
️本次送书1~4本【取决于阅读量,阅读量越多,送的越多】
目前市面上绝大部分数据血缘产品是用于跟踪数据流转过程和关系的平台,可以记录数据的来源、传输路径和用途,帮助企业管理和保护其数据资产。这些平台提供了跟踪数据血缘的功能,并可以自动记录和管理数据资产,提高数据的质量和可靠性。那么企业要如何选择适合自己的工具呢?今天就来对主流的数据血缘产品进行简单剖析。
作者:成于念 赛助力
01 Apache Atlas
Apache Atlas是一款由Apache托管的元数据管理和治理产品,在大数据领域得到广泛应用。它能够帮助企业有效管理数据资产,对这些资产进行分类和治理,提供高质量的数据信息以支持数据分析和数据治理。
Apache Atlas采用分层架构,包括三层架构,如下图所示。
Apache Atlas服务器:负责管理和存储元数据,提供REST API用于查询和修改元数据。
Apache Ranger:用于管理访问控制策略。
Apache Atlas客户端:用于与服务器交互,执行元数据查询和修改操作。
Apache Atlas整体架构
Apache Atlas核心功能:元数据管理、数据资源分类和搜索、访问控制和安全、对元数据查询和可视化展示、功能扩展(插件形式)。
Apache Atlas具有平台开源、可扩展性好、元数据管理功能强大、插件系统丰富等优势,但是存在学习曲线陡峭、功能较为单一等缺点。
Apache Atlas适用场景:大型企业数据管理,分布式环境,数据合规治理。
02 Datahub
LinkedIn开源的Datahub数据平台是一个面向数据资产的集成平台,旨在提高数据发现、可用性和可信度。该平台允许用户在数据集合、元数据、数据血缘关系和数据使用上创建、管理、发现和消费数据。它宗旨为:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。它可以帮助用户创建、存储和管理数据,提供数据血缘和数据质量管理功能。Datahub可以记录和跟踪数据元素的来源、处理和消费过程,为用户提供数据血缘视图和分析工具。同时,Datahub可以对数据进行质量分析和评估,包括数据完整性、一致性、准确性等方面。
Datahub整体架构主要包括前端用户界面、后端API、元数据存储、数据连接器、数据管道、数据质量检查器。
Datahub整体架构
Datahub核心功能包括数据发现和搜索、数据血缘和影响分析、数据协作、数据使用监控、数据质量和完整性。
Datahub的优势包括开源、可扩展性好、平台集成性高、支持数据挖掘和可视化、支持检查数据质量和完整性。
Datahub的缺点包括使用门槛高、平台维护成本高、要配备专门的数据安全性措施。
Datahub主适用场景:创建数据集,发布数据,管理数据血缘,分析数据质量,集成其他数据管理工具。
总之,Datahub是一个数据管理平台,可以帮助用户创建、存储和管理数据,提供数据血缘和数据质量管理功能,支持数据分析和业务决策。
03 Gudu SQLFlow
Gudu SQLFlow(马哈鱼数据血缘分析工具)是一款用于分析 SQL 语句,它可以帮助用户在SQL环境中进行机器学习建模和推理,并且能够能够轻易上手的数据血缘平Gudu SQLFlow 支持多种机器学习框架,包括 TensorFlow、XGBoost、LightGBM 等,并提供了可视化的工具来帮助用户分析和理解数据。
马哈鱼数据血缘平台的整体架构分为三层:数据源采集层、数据处理层和数据服务层。
Gudu SQLFlow 可以帮助用户快速构建和部署机器学习模型,从而在数据分析和应用开发中提高效率和准确性。主要功能包含:全面采集元数据信息,数据血缘关系图展示,数据查询和管理,数据治理和安全,多维度分析。
Gudu SQLFlow优势包括:全面、深度的数据血缘分析,操作简单,支持多维度的数据探查和分析,支持实时的数据质量和安全监控。
Gudu SQLFlow缺点包括:需要大量的硬件资源支持,不适用于小企业。
综合来看,马哈鱼数据血缘平台是一款功能强大、可靠性高的数据管理工具,能够有效帮助企业掌握和管理数据的流向、质量和安全等关键信息,从而提高数据管理和决策的效率和准确性。
04 FineBI
FineBI是帆软软件有限公司推出的商业智能(Business Intelligence)产品,旨在帮助企业的业务人员充分了解和利用数据。作为新一代大数据分析的BI工具,FineBI具备强大的大数据引擎,用户可以通过简单的拖拽操作创建多样化的数据可视化信息,自由地进行数据分析和探索,从而释放数据的潜能。
在应用场景方面,FineBI提供了血缘分析功能,帮助用户直观地了解当前数据表的来源表、以及使用该表创建的子孙表、组件和仪表板。用户可以通过血缘分析功能快速跳转到相关位置,便于对数据进行有效的管理。
05 亿信华辰智能数据治理平台
亿信元数据管理平台专注于处理技术元数据、业务元数据和管理元数据,旨在帮助用户获取更多的数据洞察力,并挖掘出资源中隐藏的价值。
对于技术人员而言,元数据管理平台通过对分散、存储结构差异大的资源信息进行描述、定位、检索、评估和分析,实现了信息的描述和分类的结构化。这为机器处理创造了可能性,显著降低了数据治理的人工成本。因此,元数据已成为许多大型数据治理项目的核心。
对于业务人员而言,元数据管理平台通过描述、定位、检索、评估和分析业务指标、业务术语、业务规则、业务含义等业务信息,协助业务人员了解业务含义、行业术语和规则,以及业务指标的数据口径和影响范围等。
该产品主要具备数据产品的基本功能,如规范的元模型管理、端到端的自动化采集、全面的采集适配器、可灵活定制的采集模板、便捷的元数据检索、监控、版本变更和元数据分析等。此外,还提供了数据血缘分析应用,例如数据起源及其推移位置的分析、血缘关键信息定位分析、数据影响分析、数据全链路分析和数据关联度分析。
06 飞算SoData数据机器人
飞算SoData数据机器人是一套实时+批次、批流一体、高效的数据开发治理工具,能够帮助企业快速实现数据应用。
相较于传统的数据加工流程,飞算SoData数据机器人实现了流批一体的数据同步机制,基于Spark和Flink框架进行深度二次开发,实现了数据采集、集成、转换、装载、加工、落盘等全流程的实时+批次处理,快速满足企业的数据应用需求。
飞算SoData数据机器人具有以下八大特性:数据质量和血缘关系管理,批流一体分布式计算,实时+批次同步,低代码数据开发,AI应用(NLP、深度学习等,深度集成10大组件,运维可视化,低成本可扩展。
综上所述,飞算SoData数据机器人可以帮助企业高效、低门槛、低成本地进行数据开发、治理和应用。不论是数据量较小的初创企业,还是数据庞大的企业,都可以受益于该工具的使用。
07 Informatica的数据平台
Informatica是一种企业级数据集成和数据管理平台,可以提供数据血缘和数据资产管理功能。它可以跟踪数据资产的来源、传输路径和用途,以提高数据的可靠性和可用性。主要特点包括以下几个方面:数据集成,数据质量管理,数据转换,数据血缘分析,数据安全和隐私。
总之,使用Informatica可以帮助企业更好地集成、管理和转换数据,提高数据质量和效率。使用步骤包括安装和配置、创建数据集成任务、数据血缘分析、数据质量管理、数据安全和隐私等。在数据血缘分析方面,Informatica提供了完善的工具和功能,可以方便地查看数据资产之间的关系,了解数据的来源和去向。
08 Alation
Alation是一种数据协作平台,可以自动化记录和跟踪数据血缘。它提供了一种集中管理和控制数据资产的方式,可以提高数据质量、降低风险和提高数据的可用性。其特点包括以下几个方面:可以自动分析数据血缘,可以自动扫描和分类数据资产,可以分析数据质量,可以提供协作和沟通功能,可以提供数据访问控制功能。
总之,使用Alation可以帮助数据团队更好地管理和治理数据资产,提高数据质量和效率。使用步骤包括安装和配置、数据血缘分析、数据目录管理、数据质量分析、协作和沟通、数据访问控制等。
09 Collibra数据平台
Collibra是一种数据治理和血缘平台,可以跟踪数据血缘,提供一种集中化的数据资产管理和数据治理解决方案。它支持多种数据存储和处理引擎,包括Hadoop、Spark、Hive和Kafka等。主要特点包括以下几个方面:对企业内的数据资产进行管理和分类,对数据资产进行血缘分析,对数据质量进行管理和监控,提供数据安全和隐私功能,提供数据治理工作流。
总之,使用Collibra可以帮助数据团队更好地管理和治理数据资产,提高数据质量和效率。使用步骤包括安装和配置、数据资产管理、数据血缘分析、数据质量管理、数据安全和隐私、数据治理工作流等。
- END -
本文摘编自《数据血缘分析原理与实践》,经出版方授权发布。
文章评论