【发布时间】:2017-10-28 15:31:06
【问题描述】:
我有 500 个要下载的链接,并希望按例如 10 个项目对它们进行批处理。
这个伪代码会是什么样子?
class BatchJobTask(luigi.Task)
items = luigi.Parameter()
def run(self):
listURLs = []
with ('urls_chunk', 'r') as urls
for line in urls:
listURLs.append('http://ggg'+line+'.org')
10_urls = listURLs[0:items] #10 items here
for i in 10_urls:
req = request.get(url)
req.contents
def output(self):
return self.LocalTarger("downloaded_filelist.txt")
class BatchWorker(luigi.Task)
def run(self)
# Here I should run BatchJobTask from 0 to 10, next 11 - 21 new etc...
会怎么样?
【问题讨论】:
-
您的网址列表在哪里?
-
我已经更新了第一篇文章
-
我的意思是这个 url 列表存储在哪里?在队列、数据库、文件中?你所要做的就是弄清楚那个东西有多少,然后从那里建立你的块。我将在下面举一个例子,但它不太可能与您的问题相关,因为您没有指定问题的相关部分。
标签: python parallel-processing luigi