数据血缘分析如何实现及有哪些应用场景

Question

数据血缘（Data Lineage）是数据治理的重要维度。请介绍数据血缘的实现方式（解析SQL、日志采集、字节码增强等），以及在数据故障排查、数据质量评估、合规审计等方面的具体应用场景。画图说明血缘分析的层级（字段级/表级/任务级）。。大数据 面试题。腾讯 面试题

编译有声 · Accepted Answer

数据血缘实现与应用 实现方式： SQL解析：解析Hive/Spark SQL的AST语法树，提取输入输出表及字段映射 日志采集：通过Spark/Flink的Listener机制采集执行计划中的依赖关系 字节码增强：对UDF进行插桩，捕获运行时数据流转 声明式注入：开发者手动声明数据上下游关系 血缘层级： 字段级（最细粒度）：col_a → col_b，追踪单个字段的变换 表级：table_A → table_B → table_C 任务级：ETL任务1 → 任务2 → 任务3 应用场景： 故障定位：报表数据异常 → 回溯血缘找到上游故障节点 影响分析：修改某个字段定义，自动通知所有下游依赖 合规审计：证明数据来源的合法性和处理过程的合规性 数据质量：发现数据断流或空值传播路径 开源方案：Apache Atlas + Hook、DataHub + Airflow集成、Marquez

数据血缘分析如何实现及有哪些应用场景

回答

编译有声