【发布时间】:2016-08-16 16:25:24
【问题描述】:
我正在运行 Spark 1.3.0,并希望根据模式匹配读取大量 parquet 文件。 parquet 文件基本上是 Hive DB 的基础文件,我只想读取一些文件(跨不同文件夹)。文件夹结构是
hdfs://myhost:8020/user/hive/warehouse/db/blogs/some/meta/files/
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/01/file1.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160101/02/file2.parq
hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd=20160103/01/file3.parq
类似
val v1 = sqlContext.parquetFile("hdfs://myhost:8020/user/hive/warehouse/db/blogs/yymmdd={[0-9]*}")
我想忽略元文件并仅加载日期文件夹中的镶木地板文件。这可能吗?
【问题讨论】:
标签: apache-spark parquet