Spark AQE自适应查询执行优化

Question

请详细介绍Spark 3.x中自适应查询执行（Adaptive Query Execution）的原理和各优化策略。。大数据 面试题。阿里巴巴 面试题

苦行僧 · Accepted Answer

AQE（Adaptive Query Execution，Spark 3.0+）：在运行时根据中间结果动态优化执行计划。 开启配置： spark.sql.adaptive.enabled=true spark.sql.adaptive.coalescePartitions.enabled=true spark.sql.adaptive.skewJoin.enabled=true spark.sql.adaptive.localShuffleReader.enabled=true 三大核心优化： 1. 动态合并Shuffle分区（Coalesce Post-Shuffle Partitions）： 问题： 固定Shuffle分区数（如spark.sql.shuffle.partitions=200），小数据量时产生大量小Task AQE做法： Shuffle写完后检查各分区数据大小 合并相邻小分区（spark.sql.adaptive.coalescePartitions.parallelismFirst=false） 目标分区数根据数据量自动调整（spark.sql.adaptive...

Spark AQE自适应查询执行优化

回答

苦行僧