【发布时间】:2019-07-27 08:53:41
【问题描述】:
我尝试了两种方法从 parquet 中找到不同的行,但它似乎不起作用。
尝试 1:
Dataset<Row> df = sqlContext.read().parquet("location.parquet").distinct();
但抛出
Cannot have map type columns in DataFrame which calls set operations
(intersect, except, etc.),
but the type of column canvasHashes is map<string,string>;;
尝试 2: 尝试运行 sql 查询:
Dataset<Row> df = sqlContext.read().parquet("location.parquet");
rawLandingDS.createOrReplaceTempView("df");
Dataset<Row> landingDF = sqlContext.sql("SELECT distinct on timestamp * from df");
我得到的错误:
= SQL ==
SELECT distinct on timestamp * from df
-----------------------------^^^
有没有办法在读取 parquet 文件时获取不同的记录?我可以使用的任何读取选项。
【问题讨论】:
标签: java sql dataframe apache-spark apache-spark-sql