【发布时间】:2015-12-04 16:36:33
【问题描述】:
我有一个 S3 存储桶,其中包含多个文件名中带有冒号的文件。
例子:
s3://my_bucket/my_data/en/2015120/batch:222:111:00000.jl.gz
我正在尝试将其加载到 spark RDD 中并按如下方式访问第一行。
my_data = sc.textFile("s3://my_bucket/my_data/en/2015120/batch:222:111:00000.jl.gz")
my_data.take(1)
但这会引发,
llegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:
任何建议单独加载这些文件,或者最好作为整个文件夹加载
【问题讨论】:
-
你可以试试在文件名中使用*。像 's3://path/*.gz' 。我正在使用与您上面相同的东西,它对我有用。
标签: python amazon-s3 apache-spark pyspark