【发布时间】:2017-12-20 21:35:58
【问题描述】:
我意识到有人问过这个问题的不同版本,前几天我花了几个小时尝试了多种策略。
我想要的是使用 python 从谷歌搜索中抓取所有 URL,我可以在单独的脚本中使用这些 URL 来对大型语料库(主要是新闻网站)进行文本分析。这似乎相对简单,但我尝试过的尝试都没有正常工作。
这是我得到的最接近的:
from google import search
for url in search('site:cbc.ca "kinder morgan" and "trans mountain" and protest*', stop=100):
print(url)
这在我被踢之前返回了大约 300 个 URL。使用这些参数进行实际搜索会提供大约 1000 个结果,我想要所有结果。
首先:这可能吗?第二:有人有什么建议吗?我基本上只想要一个包含可以在另一个脚本中使用的所有 URL 的 txt 文件。
【问题讨论】:
-
使用代理避免被阻止。
标签: python python-3.x web-scraping