【发布时间】:2012-07-11 17:12:48
【问题描述】:
我正在开展一个项目来分析期刊文章的引用方式。我有一个很大的期刊文章名称文件。我打算把它们传给 Google Scholar,看看每个有多少引用。
这是我遵循的策略:
使用来自http://www.icir.org/christian/scholar.html 的“scholar.py”。这是一个预先编写的 python 脚本,用于搜索谷歌学者并以 CSV 格式返回第一次点击的信息(包括引用次数)
经过一定次数的搜索后,Google 学者会阻止您(我有大约 3000 篇文章标题要查询)。我发现大多数人使用 Tor(How to make urllib2 requests through Tor in Python? 和 Prevent Custom Web Crawler from being blocked)来解决这个问题。 Tor 是一种每隔几分钟就会给你一个随机 IP 地址的服务。
我已经成功设置并运行了 Academic.py 和 tor。我对 python 或库 urllib2 不是很熟悉,想知道需要对 Academic.py 进行哪些修改,以便通过 Tor 路由查询。
如果存在大规模 google 学者查询,我也愿意接受更简单(并且可能有很大不同)方法的建议。
提前致谢
【问题讨论】:
标签: python web-scraping tor google-scholar