Hudi Compaction机制（Inline vs Async）与性能调优

Question

Hudi的Compaction机制如何合并MOR表的Base File和Log File？请解释Inline Compaction（同步合并）和Async Compaction（异步合并）的区别，以及各自的适用场景。给出一个生产环境中Compaction策略的配置示例，说明如何平衡写入延迟和读取性能。。大数据 面试题...

我是大山 · Accepted Answer

Hudi Compaction（MOR表合并）详解： 1. Compaction是什么： MOR表写入时，更新追加到Log File（Avro格式） 读取时需合并Base File（Parquet）+ Log File Compaction将Log合并回Base File，生成新Base File 2. Inline Compaction（同步合并）： // Spark写入时同步合并 df.write.format("hudi") .option("hoodie.compact.inline", "true") .option("hoodie.compact.inline.max.delta.commits", "5") .mode(Append) .save("/path"); 特点：写入任务中直接执行Compaction 优点：简单，不需要额外资源 缺点：增加写入延迟，可能影响写入吞吐 3. Async Compaction（异步合并）： # 写入时只生成Compaction Plan hoodie.compact.inline: false hoodie.compact.sch...

Hudi Compaction机制（Inline vs Async）与性能调优

回答

我是大山