【发布时间】:2017-07-04 03:27:17
【问题描述】:
如何强制 spark sql 从子目录中递归获取以 parquet 格式存储的数据?在 Hive 中,我可以通过设置一些 Hive 配置来实现这一点。
set hive.input.dir.recursive=true;
set hive.mapred.supports.subdirectories=true;
set hive.supports.subdirectories=true;
set mapred.input.dir.recursive=true;
我尝试通过 spark sql 查询设置这些配置,但与 hive 相比,我总是得到 0 条记录,这让我得到了预期的结果。我还将这些配置文件放在 hive-site.xml 文件中,但没有任何改变。我该如何处理这个问题?
Spark 版本:2.1.0 我在 emr-5.3.1 上使用 Hive 2.1.1
顺便说一句,这个问题出现在使用镶木地板文件时,而使用 JSON 时它可以正常工作。
【问题讨论】:
-
我正在尝试自己找出这个问题的答案。
-
@IceMan 我现在发布了答案,希望对您有所帮助
标签: apache-spark hive apache-spark-sql parquet