【发布时间】:2016-12-27 07:14:34
【问题描述】:
我有以下语法
val data = sc.textFile("log1.txt,log2.txt")
val s = Seq(data)
val par = sc.parallelize(s)
我得到的结果如下:
警告 ParallelCollectionRDD:Spark 不支持嵌套 RDD(请参阅 SPARK-5063)
par: org.apache.spark.rdd.RDD[org.apache.spark.rdd.RDD[String]] = ParallelCollectionRDD[2] at parallelize at :28
问题 1
parallelCollection 是如何工作的?
问题 2
我可以遍历它们并执行转换吗?
问题 3
RDD 转换和操作不是由驱动程序调用的,而是在其他转换中调用的;例如,rdd1.map(x => rdd2.values.count() * x) 无效,因为无法在 rdd1.map 转换内部执行值转换和计数操作。有关详细信息,请参阅 SPARK-5063。
这是什么意思?
【问题讨论】:
标签: scala apache-spark spark-streaming