Hive分区与分桶的区别

Question

请解释Hive中的分区（Partition）和分桶（Bucket）的概念、区别以及各自的使用场景。。大数据 面试题。腾讯 面试题

Yahuda · Accepted Answer

Hive分区（Partition）： 原理： 将表按照某个列的值划分为不同子目录，每个分区对应一个目录。 示例： CREATE TABLE logs ( log_id INT, message STRING ) PARTITIONED BY (dt STRING, hour STRING); -- HDFS路径: /user/hive/logs/dt=2024-01-01/hour=00/ 特点： 目录结构：/表名/分区列=值/子分区列=值/数据文件 查询时通过**分区剪裁（Partition Pruning）**跳过无关分区 适合按照日期/地区等有界维度进行数据组织 适用场景： 按日期查询、按地区过滤 Hive分桶（Bucket / Clustered By）： 原理： 将数据按照某列的Hash值取模，均匀分布到指定数量的文件中。 示例： CREATE TABLE users ( user_id INT, name STRING ) CLUSTERED BY (user_id) INTO 16 BUCKETS; 特点： 物理上：同一个bucket列值的数据在同一个文件中 每个buc...

Hive分区与分桶的区别

回答

Yahuda