Spark Kryo序列化详解

Question

请说明Spark中为什么推荐使用Kryo序列化而不是Java序列化？如何配置和注册Kryo序列化？。大数据 面试题。百度 面试题

苦行僧 · Accepted Answer

Java序列化的缺点： 体积大：每个对象包含类名、签名等元数据信息 速度慢：使用反射，序列化/反序列化效率低 默认Spark使用Java序列化，在网络传输和磁盘Spill时效率低 Kryo序列化的优势： | 对比维度 | Java序列化 | Kryo序列化 | |----------|-----------|------------| | 序列化大小 | 100%（基准） | 10-30% | | 序列化速度 | 慢 | 快10-50倍 | | 反序列化速度 | 慢 | 快10-80倍 | | 注册机制 | 无需注册 | 需注册（否则回退） | 如何启用Kryo： val conf = new SparkConf() .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .set("spark.kryo.registrationRequired", "true") // 是否要求所有类都注册 .registerKryoClasses(Array( classOf[MyClass1], classO...

Spark Kryo序列化详解

回答

苦行僧