对于新司机,可能看到sc与spark不知道是什么,看图知意

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

DataFrame.map(_.split("::"))报错 error: value split is not a member of org.apache.spark.sql.Row

看到下图红框报错处Row,想起DataFrame里的Row对象,虽然每一行是一列数据,但是需要将Row对象转换成String对象,才可以走split方法

sparkSQL——DataFrame&Datasets

看下图,

spark.read.json返回类型是DataFrame

spark.read.textFile返回类型是Dataset

sparkSQL——DataFrame&Datasets

 

***************************************************************************************************************************************

由于 RDD、DataFrame、DataSets 之间是可以相互转化的,所以可通过多种方式读取数据,并进行互相进行转化

如下图:

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

接下来这是另一个错,算是,恩,算是什么呢?

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

来看一个join的例子

sparkSQL——DataFrame&Datasets

或者使用下面的方式,如果用左联接的话,只需要将inner改为leftouter

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

 创建临时表

sparkSQL——DataFrame&Datasets

***************************************************************************************************************************************

创建全局表

sparkSQL——DataFrame&Datasets

sparkSQL——DataFrame&Datasets

 

相关文章:

  • 2021-07-08
  • 2021-11-15
  • 2021-12-04
  • 2022-12-23
  • 2021-10-03
  • 2021-09-28
  • 2022-12-23
  • 2021-07-11
猜你喜欢
  • 2021-05-23
  • 2021-08-27
  • 2021-06-07
  • 2021-12-25
  • 2021-12-17
  • 2021-09-15
  • 2021-04-06
相关资源
相似解决方案