HDFS小文件问题与解决方案

Question

为什么说HDFS不适合存储大量小文件？小文件会对集群造成哪些影响？列举常见的解决方案。。大数据 面试题。美团 面试题

编译有声 · Accepted Answer

小文件定义： 文件大小远小于HDFS Block Size（默认128MB），如几百KB甚至几B的文件。 负面影响： NameNode内存压力： 每个文件/block约占用150字节内存，1000万个文件占用约1.5GB内存 查询性能差： 大量小文件导致MapReduce/Sparks任务创建过多Task，调度和启动开销大 磁盘寻道开销： 数据分布零散，顺序读退化为随机读 解决方案： 合并小文件（Harmonization）： 使用Hadoop Archive（HAR）将小文件打包成har包 使用SequenceFile / MapFile合并 写入端控制： 调整Spark的spark.sql.files.maxPartitionBytes 使用Flume的HDFS Sink的rollCount/rollInterval合并 计算框架侧： Spark的wholeTextFiles()批量读取 CombineFileInputFormat将多个小文件合并为一个Split 数据湖方案： Iceberg/Hudi支持小文件自动合并（Compaction） 调整Block Size： 特别小...

HDFS小文件问题与解决方案

回答

编译有声