【问题标题】:pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'pyspark.sql.utils.AnalysisException:u'无法推断 Parquet 的架构。必须手动指定。;'
【发布时间】:2019-04-06 22:47:41
【问题描述】:

这与上面帖子中给出的答案不同

我收到一个错误提示

pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'

当我尝试使用 Spark 2.1.0 读取这样的镶木地板文件时

data = spark.read.parquet('/myhdfs/location/')

通过 Hue WebPortal 查看 impala 表,我检查了文件/表不是空的。此外,我存储在类似目录中的其他文件读起来也很好。作为记录,文件名包含连字符,但没有下划线或句号/句点。

因此,以下帖子中的答案均不适用 Unable to infer schema when loading Parquet file

有什么想法吗?

【问题讨论】:

标签: apache-spark pyspark parquet


【解决方案1】:

原来我收到此错误是因为目录结构存在另一个级别。以下是我需要的;

data = spark.read.parquet('/myhdfs/location/anotherlevel/')

【讨论】:

    猜你喜欢
    • 2023-04-02
    • 2021-12-29
    • 2018-12-05
    • 2017-12-10
    • 1970-01-01
    • 2021-09-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多