Spark DataFrame与Dataset与RDD的区别

Question

请比较Spark中RDD、DataFrame和Dataset三者的区别，以及各自的适用场景。。大数据 面试题。腾讯 面试题

小字辈 · Accepted Answer

三者对比： 1. RDD（Spark 1.0引入）： 类型安全： 编译时类型检查 ✅ Schema支持： ❌ 无，开发者自己处理结构 性能： 低（JVM对象序列化/反序列化开销大） 优化： 无Catalyst优化器，无Tungsten API： 面向对象，方法调用 2. DataFrame（Spark 1.3引入）： 类型安全： ❌ 运行时检查（Row类型） Schema支持： ✅ 有Schema，类似关系表 性能： 高（Catalyst优化器+Tungsten执行引擎） 优化： 谓词下推、列裁剪、自动join优化 API： SQL + DSL 3. Dataset（Spark 1.6引入）： 类型安全： ✅ 编译时检查（强类型泛型） Schema支持： ✅ 编码器（Encoder）自动处理 性能： 高（与DataFrame基本一致） 优化： 同DataFrame API： 函数式 + SQL 本质关系： DataFrame = Dataset[Row] 是Dataset的特例 Dataset在DataFrame的基础上引入了**编码器（Encoder）**实现高效序列化 适用场景：...

Spark DataFrame与Dataset与RDD的区别

回答

小字辈