【问题标题】:Apache Spark- Writing parquet with snappy compression errorsApache Spark-编写带有快速压缩错误的镶木地板
【发布时间】:2021-09-24 05:15:34
【问题描述】:

**使用

  1. Spark v3.0.2
  2. JAR 文件 - snappy-java-1.1.8.2
  3. HADOOP=3.2.2
  4. JAVA - java-1.8.0-openjdk.x86_64**

正在执行:有和没有压缩键值(默认为 'snappy')。

df.write.option("compression", "snappy").mode("overwrite").partitionBy(part_labels).parquet(output_path)

【问题讨论】:

    标签: pyspark compression parquet snappy


    【解决方案1】:

    我认为pyspark APIJava/Scala API 略有不同。试试这个:

    df.write.parquet(output_path, mode="overwrite", partitionBy=part_labels, compression="snappy")
    

    【讨论】:

    • 这个建议没用,我认为使用的 jar 文件之一有问题。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-03-17
    • 2021-09-14
    • 1970-01-01
    • 2016-07-04
    • 2017-06-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多