用于从网站获取数据的 Python3 脚本（请求）是否看起来“可疑”？ [关闭]答案

【问题标题】：Could Python3 script (requests) used to get data from a website seem 'suspicious'? [closed]用于从网站获取数据的 Python3 脚本（请求）是否看起来“可疑”？ [关闭]
【发布时间】：2016-08-16 20:08:45
【问题描述】：

可能是一个愚蠢的问题...我想使用 python 脚本每 10 或 20 分钟从网站获取一些数据。

我正在使用：

requests.get("http://somewebsite.php")
data = response.text

获取数据，剩下的基本上就是从字符串中提取值等

我想循环它并每 10 或 20 分钟向网站发出一个新请求以获取数据。

假设我运行这个脚本几个小时：

网站所有者会不会觉得可疑？
它会以任何方式“伤害”网站还是仅相当于在浏览器中刷新网站？

我只是不希望有人，当我只是在玩学习 python 时，在某个地方认为发生了一些恶意的事情。数据甚至不重要，我只是想看看我写的脚本是否有效。我只是想在运行它之前我可能会在这里问一下。

感谢您提前回复。

【问题讨论】：

我们应该如何知道网站所有者的想法？我们怎么可能知道他们有什么监控能力呢？从更广泛的意义上说，为什么需要使用“真实”的网站？设置自己的网络服务器并随心所欲地滥用它是微不足道的。
这些问题经常出现，我总是问同样的问题：您拥有该网站吗？您与网站所有者有协议吗？网站是人们的财产，有时（通常？）与他们的生计有关。不要随意提出请求（尤其是不寻常的请求），除非您知道自己在做什么并达成协议。如果他们有服务条款，请遵循它。如果他们有 API，请使用它。如果您被禁止或阻止，不要尝试解决它。
首先 - 你问得好。站点所有者将能够看到请求来自 Python 脚本（除非您更改用户代理），但每 10 或 20 分钟一个请求不会使服务器陷入困境。如果您决定链接请求，请考虑等待（例如time.sleep(5)）。如果该站点不允许您在没有用户代理的情况下发送请求，则表明他们不希望脚本访问它。
阅读站点服务条款并查看 robots.txt（如果可用）然后从那里决定。您的问题无法回答，因为只有您知道要抓取的网站。

标签： python html python-3.x python-requests

【解决方案1】：

虽然您不想造成任何伤害，但您可能会意外错误配置脚本（我们只是人类），产生可疑活动，并且真人可能会花一些时间调查您的活动（我不是在开玩笑，这些事情真的发生了）。

我的建议是使用像 https://httpbin.org/ 这样的测试服务来使用 requests 库。 HttpBin 实际上是由发起请求库的同一个人 (Kenneth Reitz) 创建的。

【讨论】：