【问题标题】:Download Google Trends CSV Files (From AWS)下载 Google 趋势 CSV 文件(来自 AWS)
【发布时间】:2014-06-11 23:35:48
【问题描述】:

每个月我都会运行我的脚本来下载 Google 趋势 CSV 文件以进行研究,并且我有大约 1000 个搜索词。我知道著名的“您已达到配额限制,请稍后再试”错误消息,因此我使用 Mechanize python 模块来提供 cookie。这是我的电话:

 import mechanize # other imports omitted for simplicity 

 br = mechanize.Browser()

 cj = cookielib.LWPCookieJar()
 br.set_cookiejar(cj)

 br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

 response = br.open('https://accounts.google.com/ServiceLogin?hl=en&continue=https://www.google.com/')
 forms = mechanize.ParseResponse(response)
 form = forms[0]
 form['Email'] = username
 form['Passwd'] = password
 response = br.open(form.click())

 Result = br.open("http://www.google.com/trends/trendsReport?q=SearchTerm&export=1") 
 CSVcontent = csv.reader(StringIO(Result.read()))

在我的实际脚本中,我有一个从 1 到 5 秒不等的睡眠时间规范。

但是,使用这些方法,我一次只能下载大约 350 个 CSV 文件。运行后,即使我在不​​同的 AWS 实例(不同的区域,使用相同的 Google 账户凭证)上重新运行我的脚本,我也只能在我的配额限制用完之前下载 2 个术语。

我还尝试在同一个实例上重新运行脚本,使用已使用但不同的 Google 凭据,但发生了同样的事情(仅限 2 次 CSV 下载)。

最糟糕的是,即使一个月后,我仍然每天只能下载 2 个带有 Google 凭据的 CSV 文件,这些凭据是我几个月前在脚本中使用的。

因此,我猜 Google 会同时监控 IP 地址级别和用户帐户级别的用户下载,并标记下载过多的帐户。

我的问题:

有没有人可以告诉我是否有付费服务或 API 那是免费的配额限制吗?

或者有没有办法绕过谷歌的监控(通过使用 Tor 或其他 方法)?但即使使用 Tor,我仍然需要 Google 帐户凭据 对吧?

有没有办法下载谷歌趋势数据而无需 用户名/密码(所以我可以使用 AWS 自动扩展,因为每个 IP 地址都可以 至少下载 2 个 CSV 文件)?

任何帮助和开箱即用的想法将不胜感激。

【问题讨论】:

    标签: python amazon-web-services web-crawler


    【解决方案1】:

    有没有办法在没有用户名/密码的情况下下载 Google 趋势数据

    是的,有一种方法无需登录即可获取您的数据(我现在正在对其进行测试,看起来不错,但这也是一个我无法分享的秘密,因为我不知道要丢失它)。

    我可以分享一下,我在周末下载了 3,000 到 5,000 个文件,几乎和你一样,我每个周末都这样做。 (2个IP,2个ID)

    我能给出的唯一秘密就是不要锤击谷歌。如果你锤他们那里系统会切断你

    我发现 1.5 到 2 分钟的休息时间会对您有所帮助。

    这样看:一天 24 小时,也就是 1440 分钟。如果你每 2 分钟提取一个文件,那么每天 720 个文件。

    如果你放一个随机时间函数,他们也不会切断你,他们无法判断是你还是脚本。

    每天仅下载 2 个带有 Google 凭据的 CSV 文件,这些凭据是我几个月前在脚本中使用的

    如果您一周左右不使用该帐户,它将重置;另外,如果你能更新你的IP,那会有所帮助。

    【讨论】:

    • 您好 jnovo/Skittles:非常感谢您的回答,很高兴知道其他人正在和我做同样的事情。我确实有一个随机时间函数,但它只在 1 秒到 5 秒之间变化。我一定会尝试 1.5~2 分钟的休息时间。另外,我感谢您在如何恢复被阻止的帐户方面提供的帮助。当时机成熟并且您感到舒适时,我会对您的“秘密”方法非常感兴趣。唉,您的帮助深表感谢!以后如果您想联系,您可以发送电子邮件至:hcapitaltest@gmail.com,这是我用于下载的帐户之一 :-)
    • 有的话请分享一下!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-01-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多