【问题标题】:Error while installing Spark on Google Colab在 Google Colab 上安装 Spark 时出错
【发布时间】:2019-08-09 23:26:42
【问题描述】:
【问题讨论】:
标签:
apache-spark
hadoop
pyspark
google-colaboratory
【解决方案1】:
问题是由于您用于下载spark的下载链接:
http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
要顺利下载 spark,您应该从他们的存档站点 (https://archive.apache.org/dist/spark) 下载:
例如,他们存档中的以下下载链接可以正常工作
https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
以下是安装和设置 java、spark 和 pyspark 的完整代码:
# innstall java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# install spark (change the version number if needed)
!wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
# unzip the spark file to the current folder
!tar xf spark-3.0.0-bin-hadoop3.2.tgz
# set your spark folder to your system path environment.
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
# install findspark using pip
!pip install -q findspark
对于python用户,您还应该使用以下命令安装pyspark。
!pip install pyspark
【解决方案2】:
此错误与您在代码第二行中使用的链接有关。
以下 sn-p 在 Google Colab 上为我工作。
不要忘记将 spark 版本更改为最新版本和相应的 SPARK-HOME 路径。
您可以在此处找到最新版本:
https://downloads.apache.org/spark/
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
import findspark
findspark.init()
【解决方案3】:
这是正确的代码。我刚刚测试过。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://mirrors.viethosting.com/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz
!pip install -q findspark
【解决方案4】:
#for the most recent update on 02/29/2020
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop3.2
【解决方案6】:
我尝试了以下命令,它似乎有效。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
!tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
!pip install -q findspark
我获得了最新版本,更改了下载 URL,并在 tar 命令中添加了v 标志以获得详细输出。
【解决方案7】:
您正在使用旧版本的链接,以下命令将起作用(新版本)
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xf spark-2.4.0-bin-hadoop2.7.tgz
!pip install -q findspark
【解决方案8】:
要在 Colab 中运行 spark,首先我们需要在 Colab 环境中安装所有依赖项,例如 Apache Spark 2.3.2 和 hadoop 2.7、Java 8 和 Findspark,以便在系统中定位 spark。工具安装可以在 Colab 的 Jupyter Notebook 中进行。
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
如果您再次收到此错误:无法打开:没有这样的文件或目录 tar
访问 Apache spark 网站并获取最新的构建版本:
1.https://www-us.apache.org/dist/spark/
2.http://apache.osuosl.org/spark/
用最新版本替换 spark-2.4.3 粗体字。