Spark缓存机制：cache与persist的区别

Question

请说明Spark中cache()和persist()方法的区别，以及不同存储级别（StorageLevel）的选择策略。。大数据 面试题。美团 面试题

屠龙少年 · Accepted Answer

cache()与persist()的关系： cache() = persist(StorageLevel.MEMORY_ONLY)，是persist的简化形式 persist() 支持自定义存储级别（StorageLevel） 存储级别列表： | 级别 | 描述 | 磁盘 | 内存 | 堆外内存 | 副本 | |------|------|------|------|----------|------| | MEMORY_ONLY | 仅内存缓存（默认） | ❌ | ✅ | ❌ | 1 | | MEMORY_AND_DISK | 内存放不下时溢写磁盘 | ✅ | ✅ | ❌ | 1 | | MEMORY_ONLY_SER | 内存缓存（序列化） | ❌ | ✅(序列化) | ❌ | 1 | | MEMORY_AND_DISK_SER | 内存序列化+磁盘溢出 | ✅ | ✅(序列化) | ❌ | 1 | | DISK_ONLY | 仅磁盘 | ✅ | ❌ | ❌ | 1 | | OFF_HEAP | 堆外内存（Tungsten） | ❌ | ❌ | ✅ | 1 | | *_2 | 以...

Spark缓存机制：cache与persist的区别

回答

屠龙少年