【问题标题】:Azure HDInsight Jupyter and pyspark not workingAzure HDInsight Jupyter 和 pyspark 不工作
【发布时间】:2020-04-13 08:25:07
【问题描述】:

我使用以下参数在 azure 上创建了一个 HDInsight 群集:

Spark 2.4 (HDI 4.0)

我用 PySpark Jupyter Notebook 尝试了HDInsights for Apache Spark 的教程,效果很好。 但是自从我第二次重新运行笔记本或启动新的笔记本后,运行简单

from pyspark.sql import *

或其他命令,它们都以

结尾
The code failed because of a fatal error:
    Session 7 did not start up in 180 seconds..

Some things to try:
a) Make sure Spark has enough available resources for Jupyter to create a Spark context. For instructions on how to assign resources see http://go.microsoft.com/fwlink/?LinkId=717038
b) Contact your cluster administrator to make sure the Spark magics library is configured correctly.

在此之后,我还尝试了使用 ssh 的 pyspark。当我通过 ssh 连接到集群并运行时

$ pyspark

显示以下信息

SPARK_MAJOR_VERSION is set to 2, using Spark2
Python 2.7.12 |Anaconda custom (64-bit)| (default, Jul  2 2016, 17:42:40)
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Anaconda is brought to you by Continuum Analytics.
Please check out: http://continuum.io/thanks and https://anaconda.org
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).

然后卡在那里。

我想知道我是否错过了任何手术?或者它是一个错误或什么的。我该如何解决这个问题?

【问题讨论】:

    标签: azure apache-spark pyspark jupyter-notebook azure-hdinsight


    【解决方案1】:

    根据我的观察,当您遇到“YARN”服务问题时,您会收到此错误消息示例:YARN 服务已停止。

    错误:首先我停止了“YARN”服务。

    现在我开始使用 Jupyter notebook,当我运行相同的查询时,遇到与您相同的错误消息。

    演练:错误消息

    成功:所有 Ambari 服务都在正常运行。

    要成功运行“Jupyter Notebook”查询,请确保所有服务都在正常运行。

    演练:成功消息

    ++++++++++++++++++++++++++++++++++++++++++++++++++ ++++++++++++++++++++++++

    以下是在 Azure HDInsight Spark 集群上创建 Jupyter 笔记本和运行查询的步骤:

    转到 Azure 门户 => 从 Cluster Dashboards => 选择 Jupyter Notebook => 创建 Pyspark 笔记本=> 并如图所示执行查询。

    您可以使用交互式 Apache 来运行 Pyspark (Python) 查询:

    参考:https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-shell

    【讨论】:

    • 感谢您的回复和 msdn。但是我发现每次我使用 yarn 提交 spark 作业并完成时,都会发生这种情况:1)jupyter not work(出现上述连接时间限制错误); 2)pyspark卡在上面提到的地方; 3)提交另一个作业时,它卡在连接到RM。真的很长一段时间。我已经尝试过使用 yarnUI 的方法,还尝试使用带有 yarn application -list 的 ssh 来终止应用程序。但是 YarnUi 无法连接,ssh 也会卡在连接 RM 上。那么这是常识吗?
    • @Yuejiang_Li 您能否查看更新的答案。如果您需要任何帮助,请告诉我们。
    • @Yuejiang_Li 如果我的回答对您有帮助,您可以接受它作为答案(点击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-12-22
    • 2013-11-07
    • 1970-01-01
    • 1970-01-01
    • 2017-01-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多