【发布时间】:2019-12-09 20:08:57
【问题描述】:
我在 zeppelin Web 服务 spark aws emr 中尝试了有关 python 的示例代码,并在运行此代码时发现错误 我期望的输出是我的 s3 存储中文件中的字数
text_file = sc.textFile("s3://mybuckettest2/Scenarios.txt")
counts = text_file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("s3://mybuckettest2/test.txt")
错误:
Traceback (most recent call last):
File "/tmp/zeppelin_python-2374039163027007666.py", line 319, in <module>
raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
File "/tmp/zeppelin_python-2374039163027007666.py", line 307, in <module>
exec(code, _zcUserQueryNameSpace)
File "<stdin>", line 1, in <module>
NameError: name 'sc' is not defined
【问题讨论】:
-
sc 未定义。
-
我曾在 aws emr hue Web 服务上尝试过此代码。此代码运行成功
标签: python amazon-web-services apache-spark apache-zeppelin