1.数据地图关系定义与分类

从数据地图关系来说,主流的元数据产品支持的是数据流向关系、数据模型关系两类。

• 数据流向关系:从数据传递和加工的角度,表示数据在系统内部或系统之间逻辑流向和逻辑变化的关系。

• 数据实体关系:数据实体之间的一对一,一对多,多对多的关系以及实体间的继承等关系。

• 数据实体关系的来源:数据模型的设计工具,具体有ERWinPD以及ERArchitector等。采集的准确度较高,基本上采集到大部分的关系。

• 数据流向关系的来源:来源比较多,ETL工具、传统的Sql脚本为核心的存储过程、Shell脚本、Perl脚本以及大数据中应用的Spark sqlsqoop脚本等。关系解析比较复杂正确率有待提升。

有些厂商的元数据产品解析正确率较高,但通常是一种ETL工具深度绑定,并不适合做企业级的元数据关系方案。数据关系地图的构建依赖与强大的采集适配器。普元元数据产品提供的采集适配器能够覆盖企业大部分数据关系的采集。