数据质量如何度量与保障
数据质量是数据治理的核心维度。请介绍数据质量度量的大维度(完整性、准确性、一致性、及时性、唯一性、有效性),以及如何在数仓、实时流、数据湖等不同场景下建立数据质量监控体系。如何设计数据质量SLA?
回答
编译有声
数据质量六大维度
- 完整性:字段空值率、记录缺失率(如:订单表缺少支付记录)
- 准确性:数据值与真实值的偏差(如:金额字段精度超标)
- 一致性:跨系统数据口径统一(如:CRM与数仓客户数一致)
- 及时性:数据延迟是否在SLA范围内(如:T+1报表完成时间)
- 唯一性:主键是否重复、是否有重复记录
- 有效性:数据是否符合业务规则(如:年龄字段1-150)
监控体系设计:
- 离线场景:ETL完成后自动跑质量检测任务→生成质量报告→告警
- 实时场景:Flink作业中嵌入数据质量算子,实时计算质量指标
- 数据湖场景:Delta Lake/Lakehouse ACID事务保障数据一致性
质量SLA设计:
- 核心报表:准确率≥99.9%,延迟≤30min
- 一般报表:准确率≥99%,延迟≤4h
- 告警响应:P0级30分钟内介入
工具:Great Expectations、Deequ(AWS开源)、Apache Griffin