【发布时间】:2019-09-25 18:55:56
【问题描述】:
我有一个所有维基百科文章的列表,我想抓取一个身体用于研究目的。我的脚本运行良好,但按照目前的速度,这需要 40 天。
我的问题是:
我可以运行这个脚本吗,比如说在不同的终端窗口中并行 10 次。如果我只是这样设置:
脚本 1: 起点:0 终点:len(list)/10
脚本 2: 起点起点:len(list)/10 终点:len(list)/(10*2)
...
脚本 10
等等。
这可能会给我留下 4 天的时间,这在我看来是合理的。
我的方法有效吗?有更好的方法吗?
谢谢。
【问题讨论】:
-
你为什么不试试呢?
-
我最终会的:)(
-
所以如果有人想知道......这实际上没有问题。
-
Voxum 所说的,而且,如果您要从这么多文章中提取数据,那么从数据库转储中工作可能会更快,而不是在需要时获取每篇文章。
-
这就是我要创建的 - 数据库转储????
标签: python web-scraping wikipedia wikipedia-api