【发布时间】:2019-04-06 22:47:41
【问题描述】:
这与上面帖子中给出的答案不同
我收到一个错误提示
pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'
当我尝试使用 Spark 2.1.0 读取这样的镶木地板文件时
data = spark.read.parquet('/myhdfs/location/')
通过 Hue WebPortal 查看 impala 表,我检查了文件/表不是空的。此外,我存储在类似目录中的其他文件读起来也很好。作为记录,文件名包含连字符,但没有下划线或句号/句点。
因此,以下帖子中的答案均不适用 Unable to infer schema when loading Parquet file
有什么想法吗?
【问题讨论】:
-
你有没有先检查这个帖子的答案:stackoverflow.com/questions/44954892/…
-
是的。我已经阅读了,但没有一个答案适用。
-
尝试通过提供完整路径来读取单个 Parquet 文件并报告结果。
-
啊哈!原来目录结构中还有一层!
标签: apache-spark pyspark parquet