【发布时间】:2015-09-05 20:05:56
【问题描述】:
是否可以在不使用 sparkContext 的情况下模拟 RDD?
我想对以下实用函数进行单元测试:
def myUtilityFunction(data1: org.apache.spark.rdd.RDD[myClass1], data2: org.apache.spark.rdd.RDD[myClass2]): org.apache.spark.rdd.RDD[myClass1] = {...}
所以我需要将 data1 和 data2 传递给 myUtilityFunction。如何从模拟 org.apache.spark.rdd.RDD[myClass1] 创建 data1,而不是从 SparkContext 创建真正的 RDD?谢谢!
【问题讨论】:
-
为什么不能呢?这些只是基本对象,您可以模拟它们,但很可能使用
sc.parallelize通常比模拟map/flatMap/... 方法更容易。
标签: scala unit-testing mocking apache-spark scalatest