【发布时间】:2017-10-30 16:07:27
【问题描述】:
我正在将数据帧转换为管道分隔值并将其写入 Spark shell (scala) 中的文件。但我对 PySpark 方面一无所知。不胜感激。
特别是我不知道如何用'|'连接每一列
这是一个scala版本
scala> val stgDF = spark.read.table("tbl")
stgDF: org.apache.spark.sql.DataFrame = [name: string, num: int]
scala> stgDF.map(line => line.mkString("|")).take(2) //How do I do in PySpark?
res0: Array[String] = Array(spark|2001, yarn|2002)
scala> val tmp = stgDF.map(line => line.mkString("|")).rdd
tmp: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[20] at rdd at <console>:25
scala> tmp.saveAsTextFile("stgDF")
【问题讨论】:
标签: python scala apache-spark pyspark