数据质量补偿与回刷机制

Question

当发现离线或实时数据存在质量问题后，如何进行数据补偿（Backfill）和回刷？请说明离线回刷（拉链表修复、历史分区重建）和实时回刷（Kafka重放、Flink State重置）的技术方案，以及如何保证回刷数据的一致性。。大数据 面试题。字节跳动 面试题

孤独的心 · Accepted Answer

1. 离线数据回刷 历史分区重建 # 删除问题分区并重新计算 ALTER TABLE dwd_orders DROP IF EXISTS PARTITION (dt='2024-01-15'); # 重新执行ETL spark-submit --class BackfillJob \ --conf spark.backfill.dates=2024-01-15 \ backfill.jar 拉链表修复 -- 修复渐变维度表 INSERT OVERWRITE TABLE dim_user_scd2 PARTITION (dt) SELECT user_id, user_name, level, effective_date, CASE WHEN is_latest THEN '9999-12-31' ELSE expiration_date END, is_current, dt FROM ( -- 重新计算时间区间 SELECT *, LEAD(effective_date) OVER (PARTITION BY user_id ORDER BY effective_date) AS...

数据质量补偿与回刷机制

回答

孤独的心