【问题标题】:Error while installing Spark on Google Colab在 Google Colab 上安装 Spark 时出错
【发布时间】:2019-08-09 23:26:42
【问题描述】:

在 Google Colab 上安装 spark 时出错。它说

tar:spark-2.2.1-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录 tar: 错误不可恢复:现在退出。

这是我的步骤

enter image description here

【问题讨论】:

    标签: apache-spark hadoop pyspark google-colaboratory


    【解决方案1】:

    问题是由于您用于下载spark的下载链接:

    http://apache.osuosl.org/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz

    要顺利下载 spark,您应该从他们的存档站点 (https://archive.apache.org/dist/spark) 下载:

    例如,他们存档中的以下下载链接可以正常工作

    https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

    以下是安装和设置 java、spark 和 pyspark 的完整代码:

    # innstall java
    !apt-get install openjdk-8-jdk-headless -qq > /dev/null
    
    # install spark (change the version number if needed)
    !wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
    
    # unzip the spark file to the current folder
    !tar xf spark-3.0.0-bin-hadoop3.2.tgz
    
    # set your spark folder to your system path environment. 
    import os
    os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
    os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
    
    
    # install findspark using pip
    !pip install -q findspark
    
    

    对于python用户,您还应该使用以下命令安装pyspark

    !pip install pyspark

    【讨论】:

      【解决方案2】:

      此错误与您在代码第二行中使用的链接有关。 以下 sn-p 在 Google Colab 上为我工作。 不要忘记将 spark 版本更改为最新版本和相应的 SPARK-HOME 路径。 您可以在此处找到最新版本: https://downloads.apache.org/spark/

      !apt-get install openjdk-8-jdk-headless -qq > /dev/null
      !wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
      !tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
      !pip install -q findspark
      import os
      os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
      os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"
      import findspark
      findspark.init()
      

      【讨论】:

        【解决方案3】:

        这是正确的代码。我刚刚测试过。

        !apt-get install openjdk-8-jdk-headless -qq > /dev/null
        !wget -q http://mirrors.viethosting.com/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
        !tar xf spark-2.4.4-bin-hadoop2.7.tgz
        !pip install -q findspark
        

        【讨论】:

          【解决方案4】:
          #for the most recent update on 02/29/2020
          
          !apt-get install openjdk-8-jdk-headless -qq > /dev/null
          !wget -q https://www-us.apache.org/dist/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
          !tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
          !pip install -q findspark
          import os
          os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
          os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop3.2
          

          【讨论】:

            【解决方案5】:

            只需转到https://downloads.apache.org/spark/ 并从文件夹中选择您需要的版本,然后按照https://colab.research.google.com/github/asifahmed90/pyspark-ML-in-Colab/blob/master/PySpark_Regression_Analysis.ipynb#scrollTo=m606eNuQgA82 中的说明进行操作

            步骤:

            1. 转到https://downloads.apache.org/spark/
            2. 选择文件夹,例如:“spark-3.0.1/”
            3. 复制您想要的文件名,例如:“spark-3.0.1-bin-hadoop3.2.tgz”(以 .tgz 结尾)
            4. 粘贴到提供的脚本

            列表项

            !apt-get install openjdk-8-jdk-headless -qq > /dev/null
            !wget https://downloads.apache.org/spark/FOLDER_YOU_CHOSE/FILE_YOU_CHOSE
            !tar -xvf FILE_YOU_CHOSE
            !pip install -q findspark
            
            import os
            os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
            os.environ["SPARK_HOME"] = "/content/FILE_YOU_CHOSE"
            
            import findspark
            findspark.init()
            from pyspark.sql import SparkSession
            spark = SparkSession.builder.master("local[*]").getOrCreate()
            

            【讨论】:

              【解决方案6】:

              我尝试了以下命令,它似乎有效。

              !apt-get install openjdk-8-jdk-headless -qq > /dev/null
              !wget https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz
              !tar -xvf spark-3.0.0-preview2-bin-hadoop3.2.tgz
              !pip install -q findspark
              

              我获得了最新版本,更改了下载 URL,并在 tar 命令中添加了v 标志以获得详细输出。

              【讨论】:

                【解决方案7】:

                您正在使用旧版本的链接,以下命令将起作用(新版本)

                !apt-get install openjdk-8-jdk-headless -qq > /dev/null
                !wget -q http://apache.osuosl.org/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
                !tar xf spark-2.4.0-bin-hadoop2.7.tgz
                !pip install -q findspark
                

                【讨论】:

                  【解决方案8】:

                  要在 Colab 中运行 spark,首先我们需要在 Colab 环境中安装所有依赖项,例如 Apache Spark 2.3.2 和 hadoop 2.7、Java 8 和 Findspark,以便在系统中定位 spark。工具安装可以在 Colab 的 Jupyter Notebook 中进行。

                  !apt-get install openjdk-8-jdk-headless -qq > /dev/null
                  !wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
                  !tar xf spark-2.4.3-bin-hadoop2.7.tgz
                  !pip install -q findspark
                  

                  如果您再次收到此错误:无法打开:没有这样的文件或目录 tar

                  访问 Apache spark 网站并获取最新的构建版本: 1.https://www-us.apache.org/dist/spark/ 2.http://apache.osuosl.org/spark/

                  用最新版本替换 spark-2.4.3 粗体字。

                  【讨论】:

                    猜你喜欢
                    • 2023-01-07
                    • 2021-08-29
                    • 1970-01-01
                    • 2020-12-06
                    • 1970-01-01
                    • 1970-01-01
                    • 2020-06-01
                    • 2021-05-18
                    • 2019-11-02
                    相关资源
                    最近更新 更多