【发布时间】:2018-06-05 23:51:36
【问题描述】:
我正在学习 python,目前正在抓取 reddit。不知何故,reddit 发现我是一个机器人(我的软件实际上是),但他们怎么知道呢?以及我们如何欺骗他们认为我们是普通用户。
我找到了实用的解决方案,但我要求更深入的理论理解。
【问题讨论】:
-
除了验证码人性测试之外,我认为网站无法判断您是否是机器人。使用 python 代码,您可以通过填充标题来欺骗网络,使其认为您是真实的。例如:
req = Request(url)req.add_header('User-Agent', 'Mozilla/5.0')最后一件事,他们可以使用统计数据并分析您的行为。
标签: python web-scraping web bots