【发布时间】:2016-08-16 20:08:45
【问题描述】:
可能是一个愚蠢的问题...我想使用 python 脚本每 10 或 20 分钟从网站获取一些数据。
我正在使用:
requests.get("http://somewebsite.php")
data = response.text
获取数据,剩下的基本上就是从字符串中提取值等
我想循环它并每 10 或 20 分钟向网站发出一个新请求以获取数据。
假设我运行这个脚本几个小时:
- 网站所有者会不会觉得可疑?
- 它会以任何方式“伤害”网站还是仅相当于在浏览器中刷新网站?
我只是不希望有人,当我只是在玩学习 python 时,在某个地方认为发生了一些恶意的事情。数据甚至不重要,我只是想看看我写的脚本是否有效。我只是想在运行它之前我可能会在这里问一下。
感谢您提前回复。
【问题讨论】:
-
我们应该如何知道网站所有者的想法?我们怎么可能知道他们有什么监控能力呢?从更广泛的意义上说,为什么需要使用“真实”的网站?设置自己的网络服务器并随心所欲地滥用它是微不足道的。
-
这些问题经常出现,我总是问同样的问题:您拥有该网站吗?您与网站所有者有协议吗?网站是人们的财产,有时(通常?)与他们的生计有关。不要随意提出请求(尤其是不寻常的请求),除非您知道自己在做什么并达成协议。如果他们有服务条款,请遵循它。如果他们有 API,请使用它。如果您被禁止或阻止,不要尝试解决它。
-
首先 - 你问得好。站点所有者将能够看到请求来自 Python 脚本(除非您更改用户代理),但每 10 或 20 分钟一个请求不会使服务器陷入困境。如果您决定链接请求,请考虑等待(例如
time.sleep(5))。如果该站点不允许您在没有用户代理的情况下发送请求,则表明他们不希望脚本访问它。 -
阅读站点服务条款并查看 robots.txt(如果可用)然后从那里决定。您的问题无法回答,因为只有您知道要抓取的网站。
标签: python html python-3.x python-requests