【问题标题】:What is the difference between PySpark and Spark?PySpark 和 Spark 有什么区别?
【发布时间】:2021-04-23 01:56:44
【问题描述】:

我在问一个与this SO question on pyspark and spark 非常相似的问题 这个答案解释了 pyspark 安装中确实有火花。当我通过 Anaconda 执行此操作时会发生什么?而且,还有其他方法可以在 PyCharm 中运行它吗?因为,我的 jupyter notebooks 运行良好。

我对从安装开始的 Spark 和 Pyspark 感到非常困惑。

我了解 PySpark 是一个使用 python 编写可扩展 Spark 脚本的包装器。我所做的只是通过 anaconda,我安装了它。

conda install pyspark。我可以在脚本中导入它。

但是,当我尝试通过 PyCharm 运行脚本时,出现了这些警告,并且代码保持原样,但并未停止。

Missing Python executable 'C:\Users\user\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Python 3.9', defaulting to 'C:\Users\user\AppData\Local\Programs\Python\Python39\Lib\site-packages\pyspark\bin\..' for SPARK_HOME environment variable. Please install Python or specify the correct Python executable in PYSPARK_DRIVER_PYTHON or PYSPARK_PYTHON environment variable to detect SPARK_HOME safely.

清楚的告诉我们需要设置这些环境变量

有很多关于安装 Spark 的资源,我浏览了很多并关注了this

我只是不明白这一切之间的联系。这可能是一个非常琐碎的问题,但我只是感到很无助。

谢谢。

【问题讨论】:

    标签: python apache-spark pyspark


    【解决方案1】:

    (过)简化解释:Sparkdata processing framework。 Spark 核心由ScalaJava 实现,但它也提供了不同的包装器,包括Python (PySpark)R (SparkR)SQL (Spark SQL)

    您可以单独安装 Spark(这将包括所有的包装器),或仅使用 pipconda 安装 Python 版本。

    【讨论】:

      猜你喜欢
      • 2014-12-30
      • 2016-05-27
      • 2017-04-05
      • 2021-10-17
      • 1970-01-01
      • 1970-01-01
      • 2016-12-14
      • 2016-06-23
      • 2016-06-05
      相关资源
      最近更新 更多