【发布时间】:2023-03-27 17:20:01
【问题描述】:
当前通过将不同的字符串传递给 html_session() 方法来更改 user_agent。
还有没有办法在抓取网站时在计时器上更改您的 IP 地址?
【问题讨论】:
-
这听起来很像规避网站使用条款的方法...
-
看这里:google-scraper.squabbel.com 这是专门用于 Google 抓取的,但有助于解决您的问题以及将信息用于任何事情。它适用于几乎所有网站,大多数都比 Google 更容易。
-
您可以为此目的使用 tor 和 privoxy 或直接 tor。注意:-我个人认为规避网站限制没有什么不道德的。显然,您不应该利用该过程对目标网页进行不必要的大量点击。
-
谢谢你们。您知道使用 R 的 @IndranilGayen 的好指南吗?失败总是可以使用 Python。
标签: r rcurl rvest httr rselenium