浅谈数据血缘的实现原理 | 得物技术
出处:
mp.weixin.qq.com
作者:
Weki
大数据时代,数据的来源极其广泛,各种类型的数据在快速产生,数据也是爆发性增长。从数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。在数据中台的大背景下,数仓的开发者经常需要解决以下问题: 面对成百上千张的数据表,不知道该如何关联,也不知道这些表具有什么业务价值 执行过长,慢的无法忍受的SQL脚本,却不敢轻易进行整改 数据表是否包含机密数据需要被清理,以及这些机密数据是否被转存导致权限放大 其实,以上的这些问题都可以统一归类为数据发现问题。大部分企业会针对离线数仓任务进行SQL分析,构建表和字段的血缘关系,数据发现包括但不限于: 数据 表/列的业务分类分级和机密字段识别等。