【发布时间】:2018-05-25 04:22:35
【问题描述】:
我有一个巨大的 Spark DataFrame,我使用以下语句创建它
val df = sqlContext.read.option("mergeSchema", "true").parquet("parquet/partitions/path")
现在,当我尝试在上面的 DataFrame 上进行列重命名或选择操作时,它会说发现不明确的列,但出现以下异常
org.apache.spark.sql.AnalysisException: 参考 'Product_Type' 是 模棱两可,可能是 Product_Type#13、Product_Type#235
现在我看到了列,发现有两列 Product_Type 和 Product_type 这似乎是相同的列,但由于架构随着时间的推移而合并,创建的一个字母大小写不同。现在我不介意保留重复的列,但 Spark sqlContext 出于某种原因不喜欢它。
我相信默认情况下spark.sql.caseSensitive 配置是真的,所以不知道为什么它会失败。我正在使用 Spark 1.5.2。我是 Spark 的新手。
【问题讨论】:
标签: scala apache-spark apache-spark-sql