【发布时间】:2018-08-17 12:55:24
【问题描述】:
我有两个数据框
- df1 500列,其中一列是id(StringType),记录数1000万
- df2 有 4 列,其中 1 列是 id(StringType),其他 3 列(比如 x,y,z) 名称匹配 df1 的 3 列(同名,即 x,y,z),它包含 0.2百万条记录
我想做左连接,因此加入 df 必须有 500 列的 1000 万条记录
df1.join(df2, "id", "left_outer")
它给了我错误 错误:类型不匹配:
found : String("id")
required: org.apache.spark.sql.Column
做什么,什么时候尝试
它给了我 org.apache.spark.sql.AnalysisException:字符串类型的连接条件“id”不是布尔值。
怎么办?
【问题讨论】:
标签: apache-spark