下载 Google 趋势 CSV 文件（来自 AWS）答案

【问题标题】：Download Google Trends CSV Files (From AWS)下载 Google 趋势 CSV 文件（来自 AWS）
【发布时间】：2014-06-11 23:35:48
【问题描述】：

每个月我都会运行我的脚本来下载 Google 趋势 CSV 文件以进行研究，并且我有大约 1000 个搜索词。我知道著名的“您已达到配额限制，请稍后再试”错误消息，因此我使用 Mechanize python 模块来提供 cookie。这是我的电话：

 import mechanize # other imports omitted for simplicity 

 br = mechanize.Browser()

 cj = cookielib.LWPCookieJar()
 br.set_cookiejar(cj)

 br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

 response = br.open('https://accounts.google.com/ServiceLogin?hl=en&continue=https://www.google.com/')
 forms = mechanize.ParseResponse(response)
 form = forms[0]
 form['Email'] = username
 form['Passwd'] = password
 response = br.open(form.click())

 Result = br.open("http://www.google.com/trends/trendsReport?q=SearchTerm&export=1") 
 CSVcontent = csv.reader(StringIO(Result.read()))

在我的实际脚本中，我有一个从 1 到 5 秒不等的睡眠时间规范。

但是，使用这些方法，我一次只能下载大约 350 个 CSV 文件。运行后，即使我在不同的 AWS 实例（不同的区域，使用相同的 Google 账户凭证）上重新运行我的脚本，我也只能在我的配额限制用完之前下载 2 个术语。

我还尝试在同一个实例上重新运行脚本，使用已使用但不同的 Google 凭据，但发生了同样的事情（仅限 2 次 CSV 下载）。

最糟糕的是，即使一个月后，我仍然每天只能下载 2 个带有 Google 凭据的 CSV 文件，这些凭据是我几个月前在脚本中使用的。

因此，我猜 Google 会同时监控 IP 地址级别和用户帐户级别的用户下载，并标记下载过多的帐户。

我的问题：

有没有人可以告诉我是否有付费服务或 API 那是免费的配额限制吗？

或者有没有办法绕过谷歌的监控（通过使用 Tor 或其他方法）？但即使使用 Tor，我仍然需要 Google 帐户凭据对吧？

有没有办法下载谷歌趋势数据而无需用户名/密码（所以我可以使用 AWS 自动扩展，因为每个 IP 地址都可以至少下载 2 个 CSV 文件）？

任何帮助和开箱即用的想法将不胜感激。

【问题讨论】：

标签： python amazon-web-services web-crawler

【解决方案1】：

有没有办法在没有用户名/密码的情况下下载 Google 趋势数据

是的，有一种方法无需登录即可获取您的数据（我现在正在对其进行测试，看起来不错，但这也是一个我无法分享的秘密，因为我不知道要丢失它）。

我可以分享一下，我在周末下载了 3,000 到 5,000 个文件，几乎和你一样，我每个周末都这样做。（2个IP，2个ID）

我能给出的唯一秘密就是不要锤击谷歌。如果你锤他们那里系统会切断你

我发现 1.5 到 2 分钟的休息时间会对您有所帮助。

这样看：一天 24 小时，也就是 1440 分钟。如果你每 2 分钟提取一个文件，那么每天 720 个文件。

如果你放一个随机时间函数，他们也不会切断你，他们无法判断是你还是脚本。

每天仅下载 2 个带有 Google 凭据的 CSV 文件，这些凭据是我几个月前在脚本中使用的

如果您一周左右不使用该帐户，它将重置；另外，如果你能更新你的IP，那会有所帮助。

【讨论】：

您好 jnovo/Skittles：非常感谢您的回答，很高兴知道其他人正在和我做同样的事情。我确实有一个随机时间函数，但它只在 1 秒到 5 秒之间变化。我一定会尝试 1.5~2 分钟的休息时间。另外，我感谢您在如何恢复被阻止的帐户方面提供的帮助。当时机成熟并且您感到舒适时，我会对您的“秘密”方法非常感兴趣。唉，您的帮助深表感谢！以后如果您想联系，您可以发送电子邮件至：hcapitaltest@gmail.com，这是我用于下载的帐户之一 :-)
有的话请分享一下！