CodeWalk

数据质量如何度量与保障

作者:编译有声 · 2026-05-30 12:55

数据质量是数据治理的核心维度。请介绍数据质量度量的大维度(完整性、准确性、一致性、及时性、唯一性、有效性),以及如何在数仓、实时流、数据湖等不同场景下建立数据质量监控体系。如何设计数据质量SLA?

回答

编译有声

数据质量六大维度

  1. 完整性:字段空值率、记录缺失率(如:订单表缺少支付记录)
  2. 准确性:数据值与真实值的偏差(如:金额字段精度超标)
  3. 一致性:跨系统数据口径统一(如:CRM与数仓客户数一致)
  4. 及时性:数据延迟是否在SLA范围内(如:T+1报表完成时间)
  5. 唯一性:主键是否重复、是否有重复记录
  6. 有效性:数据是否符合业务规则(如:年龄字段1-150)

监控体系设计

  • 离线场景:ETL完成后自动跑质量检测任务→生成质量报告→告警
  • 实时场景:Flink作业中嵌入数据质量算子,实时计算质量指标
  • 数据湖场景:Delta Lake/Lakehouse ACID事务保障数据一致性

质量SLA设计

- 核心报表:准确率≥99.9%,延迟≤30min
- 一般报表:准确率≥99%,延迟≤4h
- 告警响应:P0级30分钟内介入

工具:Great Expectations、Deequ(AWS开源)、Apache Griffin