【发布时间】:2017-11-24 18:34:23
【问题描述】:
我有一个镶木地板格式的文件列表,我在 PySpark 中加载并合并到一个数据帧中。
paths = ['file1', 'file2', 'file3']
df_list = map(lambda x:(spark.read.parquet(x)), paths)
df = reduce(lambda df1, df2: df1.unionAll(df2), df_list)
我想用 Scala 做同样的操作。但是,当我在 Scala 路径列表
上使用地图操作时val df_list = map(x = > (spark.read.parquet(x)), paths)
我收到以下错误:
:139: 错误:重载方法值镶木地板 替代方案:(路径:String*)org.apache.spark.sql.DataFrame
(路径:字符串)org.apache.spark.sql.DataFrame 不能应用于 (列表[字符串]) val df_list = map(x = > (spark.read.parquet(x)), 路径)
任何解决问题的建议都将不胜感激。
【问题讨论】:
标签: python scala apache-spark apache-spark-sql parquet