【发布时间】:2021-08-06 06:44:10
【问题描述】:
所以我在网络上抓取 Google,我很确定它会根据 IP 地址阻止我的请求。我已经将我的应用程序部署到 Heroku(在 dynos 重新启动时具有动态 IP 地址),并且我注意到如果应用程序启动,在 5 个请求之后,它们将无法正确抓取。如果我重新启动达因,那么在它停止抓取之前我会收到另外 5 个请求。这让我相信测功机启动时的静态 IP 地址是问题所在。我查看了 QuotaGuard 动态 IP (https://devcenter.heroku.com/articles/quotaguard),但我认为这不会起作用,因为 Google 似乎是 https。之前有没有人通过 Heroku 上的不同 IP 动态代理他们的请求(如果有,你推荐使用什么)?我在 Node.js 环境中工作。
【问题讨论】:
-
这违反了 Google 的服务条款。请尊重服务条款,而不是试图绕过 Google 可能设置的任何技术限制。
-
@Chris 很多公司都会抓取谷歌搜索结果。我不认为这很糟糕。如果您对如何将请求路由到不同的 IP 有任何建议,那将是一个很大的帮助。
标签: node.js heroku web-scraping dyno quotaguard