数据治理与元数据管理
请介绍数据治理的核心概念,包括元数据管理、数据血缘、数据质量以及数据资产管理。
回答
Yahuda
数据治理定义: 对数据的管理、使用、保护和优化的政策、流程和技术的集合。
四大核心领域:
1. 元数据管理(Metadata Management):
- 技术元数据: 表结构、列类型、分区信息、存储路径、ETL脚本
- 业务元数据: 业务定义、计算口径、负责人、数据来源
- 管理元数据: 访问权限、数据等级、生命周期
- 工具: Apache Atlas、Alibaba DataWorks、Informatica
2. 数据血缘(Data Lineage):
- 定义: 追踪数据从源头到目标的完整链路
- 作用:
- 数据质量问题可追溯根因
- 评估数据变更的影响范围
- 合规审计(GDPR等)
- 粒度: 表级 → 字段级 → 行级
- 采集方式:
- 解析SQL: 从Hive/Spark执行的SQL语句解析输入输出
- 打点采集: ETL任务中埋点记录数据流向
- 自动解析: Atlas自动采集Hive/HBase/Kafka的血缘
3. 数据质量(Data Quality):
- 六大维度:
- 完整性(Completeness): 是否有空值
- 准确性(Accuracy): 数据是否正确(如性别字段只有男/女)
- 一致性(Consistency): 同一指标在不同系统是否一致
- 及时性(Timeliness): 数据是否在预期时间内产出
- 唯一性(Uniqueness): 是否有重复数据
- 规范性(Conformity): 数据格式是否统一
- 工具: Great Expectations、Deequ、Apache Griffin
4. 数据资产管理:
- 数据目录(Data Catalog): 提供数据检索、浏览、理解
- 数据分级: 公开/内部/敏感/机密
- 数据脱敏: 手机号、身份证等敏感信息自动脱敏
- 生命周期管理: 冷热数据分离、自动归档、过期清理
数据治理成熟度模型:
- 初始级: 无序管理
- 标准化: 统一命名规范、元数据采集
- 量化管理: 数据质量指标监控,定期评估
- 优化级: 自动治理、AI辅助、数据资产化