Spark内存管理机制详解

Question

请详细介绍Spark的内存模型，包括堆内内存（On-Heap）和堆外内存（Off-Heap）的划分，各区域的作用及配置参数。。大数据 面试题。字节跳动 面试题

我还是少年 · Accepted Answer

Spark内存分为堆内和堆外两大部分： 一、堆内内存（On-Heap）： 执行内存（Execution Memory）：Shuffle、Join、Sort、Aggregation等计算使用，spark.executor.memory×spark.memory.fraction×spark.memory.storageFraction 存储内存（Storage Memory）：缓存RDD/Broadcast变量/累加器 用户内存（User Memory）：用户代码和UDF中的对象，spark.executor.memory×(1-spark.memory.fraction) 预留内存（Reserved Memory）：固定300MB 二、统一内存管理（Unified Memory，Spark 1.6+）： 执行内存和存储内存可以互相抢占（动态占用） 存储内存空闲时执行内存可借用，反之亦然 但执行内存被借走时，存储内存必须强制逐出（Evict）归还 三、堆外内存（Off-Heap）： spark.memory.offHeap.enabled=true spark.memory.offHe...

Spark内存管理机制详解

回答

我还是少年