Apache Hudi COW与MOR存储模型的选择策略

Question

Apache Hudi支持两种存储类型：Copy-On-Write(COW)和Merge-On-Read(MOR)。请解释两者的底层实现差异、读写性能对比，以及业务选型建议（什么场景用COW、什么场景用MOR）。。大数据 面试题

小字辈 · Accepted Answer

COW（Copy-On-Write）： 写入时（UPSERT）直接重写整个Parquet文件 读取时只需读取Base文件，无合并开销 写放大明显（每次更新都重写整个文件） 性能：写入慢，读取快 存储占用：每次更新产生新版本完整文件 MOR（Merge-On-Read）： 写入数据分为Base File(Parquet) + Log File(Avro) Base File只写一次，后续更新追加到Log File 读取时需要Merge Base + Log（两种模式：ReadOptimized(RO)只读Base，Snapshot/Incremental合并读取） 性能：写入快（仅追加Log），读取稍慢（需合并） 存储占用：Log文件记录变更，定期Compaction将Log合并回Base 选型建议： 场景COWMOR 写少读多✅❌ 写多读少❌✅ 实时入湖(高频UPSERT)❌✅ 离线批处理读✅❌ 数据一致性要求高✅✅(snapshot模式) 典型场景： COW：维度表（低频更新，高频查询） MOR：事实表（高频写入，流式入湖）

场景	COW	MOR
写少读多	✅	❌
写多读少	❌	✅
实时入湖(高频UPSERT)	❌	✅
离线批处理读	✅	❌
数据一致性要求高	✅	✅(snapshot模式)

Apache Hudi COW与MOR存储模型的选择策略

回答

小字辈