【发布时间】:2016-08-05 12:46:57
【问题描述】:
我知道如何使用 SparkR 将文本文件转换为 RDD:
data <- textFile(sc, "data/tsv_wiki")
但我想知道如何将 R 中 DataFrame 类型的对象转换为 RDD。
任何帮助将不胜感激。
【问题讨论】:
-
也许 ampcamp 应该在他们的练习中提供这个链接:spark.apache.org/docs/latest/sparkr.html。
-
我不是要求这个来进行 ampcamp 练习。我还没有找到如何在 SparkR (1.6) API (spark.apache.org/docs/1.6.0/api/R) 中将 DataFrame 转换为 RDD
-
感谢您的评论@r2evans,但该链接只是 SparkR 的一般概述,甚至没有提及 RDD...我正在尝试执行此转换,而不是作为任何在线课程的一部分练习,但作为直接在 RDD 上执行某些 dplyr 样式操作的一种方式 (stackoverflow.com/questions/33657974/…)
-
抱歉,我(显然)不是 Spark 大师。我从文档中推断,自从他们重命名SchemaRDD to DataFrame 并谈论converting DataFrames from local data frames,这一切都是等价的。 (我几乎肯定会感到困惑,这对于所有 Datas 和 Frames 都可以理解 :-)
-
别担心 :-),我也很困惑。我知道您可以使用
.rdd方法将DataFrame 转换为RDD。不幸的是,现有 RDD 中的 SparkR 中不存在该方法(仅当您加载文本文件时,如示例中所示),这让我想知道为什么。