Hive ORC与Parquet格式对比

Question

请比较Hive中ORC和Parquet两种列式存储格式的优缺点，以及各自适合的场景。。大数据 面试题。阿里巴巴 面试题

孤独的心 · Accepted Answer

ORC（Optimized Row Columnar，由Hive团队开发）： 特点： Stripes架构： 文件分为Stripes（默认250MB），每个Stripe包含Index Data、Row Data、Stripe Footer 轻量级索引： 每个Stripe存储min/max/布隆过滤器，跳过不匹配的行组 ACID支持： Hive 3.x支持ACID事务（需要ORC格式） 压缩： 支持Zlib/Snappy/Lzo/LZ4/Zstd，内置字典编码 谓词下推： 可在Stripes级别跳过不相关数据 Parquet（由Cloudera/Twitter开发，源于Google Dremel）： 特点： Row Group架构： 文件分为Row Groups，内部按Column Chunk存储 嵌套类型支持： 原生支持复杂的嵌套数据结构（JSON/Protocol Buffers风格） 编码丰富： PLAIN/DICTIONARY/DELTA/RUN_LENGTH 跨生态支持： Spark/Impala/Drill/Presto/Druid等都支持 谓词下推： 支持Page级别的统计...

Hive ORC与Parquet格式对比

回答

孤独的心