Hive小文件合并与优化策略

Question

Hive中大量小文件会导致什么问题？请列举常见的Hive小文件合并和优化策略。。大数据 面试题。美团 面试题

编译有声 · Accepted Answer

小文件问题： HDFS NameNode内存压力（每个文件/block占用约150B） 查询效率低（Map Task数量过多，启动开销大） ORC/Parquet格式小文件无法进行有效列裁剪 小文件产生原因： 动态分区插入（每个分区生成一个文件） Reduce数量过大（hive.exec.reducers.max设置过大） 实时流写入（持续追加小文件） 优化策略： 1. 合并Reduce输出： -- 合并小文件到指定大小 SET hive.merge.mapfiles=true; -- Map-only任务结束后合并 SET hive.merge.mapredfiles=true; -- Reduce任务结束后合并 SET hive.merge.size.per.task=256000000; -- 合并后的目标大小（256MB） SET hive.merge.smallfiles.avgsize=16000000; -- 平均大小小于此值才合并 2. 控制动态分区： SET hive.exec.dynamic.partition=true; SET hive.exec.dynami...

Hive小文件合并与优化策略

回答

编译有声