【发布时间】:2015-09-14 16:33:01
【问题描述】:
我在 Python 文件中有一个名为 some_class() 的类:
/some-folder/app/bin/file.py
我在这里将它导入到我的代码中:
/some-folder2/app/code/file2.py
由
import sys
sys.path.append('/some-folder/app/bin')
from file import some_class
clss = some_class()
我想在 spark 的映射中使用这个类的名为 some_function 的函数
sc.parallelize(some_data_iterator).map(lambda x: clss.some_function(x))
这给了我一个错误:
No module named file
当我在 pyspark 的 map 函数之外调用 class.some_function 时,即通常但不在 pySpark 的 RDD 中。我认为这与pyspark有关。我不知道我哪里错了。
我试过直播这堂课,但还是不行。
【问题讨论】:
标签: python apache-spark pyspark rdd