【发布时间】:2017-04-27 03:36:06
【问题描述】:
我正在尝试将数据帧转换为 RDD。我的 DataFrame 有类型的列,如下所示:
df.printSchema
root
|-- _c0: integer (nullable = true)
|-- num_hits: integer (nullable = true)
|-- session_name: string (nullable = true)
|-- user_id: string (nullable = true)
当我使用df.rdd 将其转换为rdd 时,我得到一个类型为Array[org.apache.spark.sql.Row] 的rdd,但是当我使用rdd(0)(0)、rdd(0)(1) 等访问每个条目时,我知道它们都具有Any 类型。当我将 DataFrame 转换为 RDD 时,如何保持与 DataFrame 相同的类型?换句话说:如何让我的 rdd 中的列具有 Int、Int、String、String 类型,以便它们与 Dataframe 匹配?
【问题讨论】:
标签: scala apache-spark