【发布时间】:2019-10-26 20:25:35
【问题描述】:
我正在尝试从 kafka 主题中获取数据,但我无法做到这一点。 我已经尝试了共享链接的教程,但最后我得到了错误。 我也添加了所有必需的 jar 文件(位置:-usr/local/spark/jars)。 请让我知道可能出了什么问题。 我也想知道如何用 scala 编程来做到这一点。
https://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#deploying-applications
https://medium.com/@kass09/spark-streaming-kafka-in-python-a-test-on-local-machine-edd47814746
尝试这个火花流命令我得到了错误。
" bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.1 examples/src/main/python/streaming/direct_kafka_wordcount.py"
我遇到了一个 jupyter 错误,所以我尝试了以下命令来解决它,但错误仍然相同 "pip3 install --upgrade --force-reinstall --no-cache-dir jupyter"
【问题讨论】:
-
你想提交一个 jupyter notebook 吗?那是行不通的(据我所知)。您可以在 jupyter notebook 中提交 .py 文件或创建 spark 上下文。
-
请分享 sudo 代码和有关如何运行程序的步骤以更好地提供帮助,这似乎是由于缺少库或类路径错误而导致的错误。
-
我分享的 medium.com 的第二个链接,我已经完成了完全相同的步骤,但是在运行 python 代码时出现错误。我还遵循了链接 1(spark.apache.org) @SureshChaganti 中的简单字数示例
-
@SureshChaganti 请检查我在问题中添加的图片。
-
@SureshChaganti 嗨,我在尝试了几个解决方案后更新了我的问题,所以现在我收到了这个错误。请检查它并帮助我解决这个问题。
标签: apache-spark pyspark apache-kafka jupyter-notebook