SparkSQL DataSet

SparkSQL DataSet
1、概念

DataSet是分布式的数据集合。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作。
2、DataFrame、DataSet、RDD的区别

假设RDD中的两行数据是这样：

SparkSQL DataSet

那么DataFrame中的数据是这样:

SparkSQL DataSet

那么Dataset中的数据是这样:

SparkSQL DataSet

或者是这样（每行数据是个Object）:

SparkSQL DataSet

DataSet包含了DataFrame的功能，Spark2.0中两者统一，DataFrame表示为DataSet[Row]，即DataSet的子集。

DataSet可以在编译时检查类型
并且是面向对象的编程接口

相比DataFrame，Dataset提供了编译时类型检查，这会节省调试bug的大量的时间，这也是引入Dataset的一个重要原因。
3、DataFrame与DataSet的互转

DataFrame转为 DataSet
df.as[ElementType]这样可以把DataFrame转化为DataSet。
DataSet转为DataFrame
ds.toDF()这样可以把DataSet转化为DataFrame。

4、创建DataSet
4.1、通过spark.createDataset创建

SparkSQL DataSet
4.2、通toDS方法生成DataSet

SparkSQL DataSet
4.3、通过DataFrame转换生成

使用as[]转换为DataSet

SparkSQL DataSet

相关文章：

2021-10-19
2021-11-30
2021-04-20
2022-12-23
2022-12-23
2021-06-03
2021-08-30

猜你喜欢

2022-12-23
2021-04-06
2021-07-08
2021-10-03
2021-09-28
2021-11-01

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode