【发布时间】:2016-09-15 12:04:28
【问题描述】:
我在 S3 上有一个包含 1000 个文件的存储桶。每个大约 1GB。我想阅读这些文件的随机样本。假设所有文件的 5%。我就是这样做的
fileDF = sqlContext.jsonRDD(self.sc.textFile(self.path).sample(withReplacement=False, fraction=0.05, seed=42).repartition(160))
但上面的代码似乎会读取所有文件然后进行采样。虽然我想提取文件样本并阅读它们。有人可以帮忙吗?
【问题讨论】:
-
什么是self.path?它使用通配符吗?
-
self.path 是 Python 中的 self 变量。
标签: python amazon-s3 apache-spark pyspark amazon-emr