Iceberg小文件合并（Compaction/Optimize）策略与实现

Question

Iceberg数据湖文件过多会导致查询性能下降，请解释Iceberg的小文件合并策略：如何通过rewriteDataFiles Action合并小文件？合并的触发策略（文件数量/大小阈值）是什么？以及如何配置Flink/Spark的自动合并作业？给出一个Spark自动化合并脚本的示例。。大数据 面试题。阿里巴巴 面试题

专业代码师 · Accepted Answer

Iceberg小文件合并（Compaction）详解： 1. 小文件产生原因： Flink CDC实时写入（每个Checkpoint生成小文件） 频繁的MERGE/UPDATE/DELETE操作 分区粒度过细 2. rewriteDataFiles合并原理： // Spark import org.apache.iceberg.spark.actions.SparkActions SparkActions.get(spark) .rewriteDataFiles(table) .option("target-file-size-bytes", "268435456") // 256MB目标文件 .option("min-file-size-bytes", "75497472") // 75MB以下视为小文件 .option("rewrite-all", "false") // 是否重写所有文件 .option("max-concurrent-file-group-rewrites", "10") .execute() 3. 合并策略参数： | 参数 | 说明 | 建议值 | |---...

Iceberg小文件合并（Compaction/Optimize）策略与实现

回答

专业代码师