Hive CBO优化器原理

Question

请解释Hive的基于成本的优化器（CBO）的工作原理，包括如何收集统计信息，CBO如何选择Join顺序和执行计划。。大数据 面试题。字节跳动 面试题

我是大山 · Accepted Answer

CBO（Cost-Based Optimizer）： 基于表/分区/列的统计信息，估算不同执行计划的成本，选择最优执行计划。 一、统计信息收集： 表级统计： ANALYZE TABLE table_name COMPUTE STATISTICS; -- 收集：numRows、totalSize、rawDataSize 列级统计： ANALYZE TABLE table_name COMPUTE STATISTICS FOR COLUMNS; -- 收集：numDVs（不同值数）、numNulls、max/min、avgColLen、maxColLen -- 对分区表：ANALYZE TABLE table_name PARTITION(ds) COMPUTE STATISTICS; Hive 3.x+自动收集： SET hive.stats.autogather=true; -- 写入时自动收集 二、CBO优化过程： 解析SQL → 生成AST → 转换为逻辑计划 基于规则优化（RBO）：谓词下推、列裁剪、分区裁剪 CBO枚举：对Join顺序/Join类型/聚合方法等生成多种执行计划...

Hive CBO优化器原理

回答

我是大山