【发布时间】:2011-10-17 13:27:09
【问题描述】:
我有一个页面可以计算用户(注册用户、访客、各种用户......)访问了多少次。
所以每次查看页面时我都会更新数据库中的一个字段;是的,如果页面刷新很快,但我不介意。
当然,当一些机器人/爬虫扫描我的网站时,它们会增加这个值,我会摆脱这个。那么,是否有可以忽略的 IP 地址列表?或者一些可以帮助我做到这一点的机制?
【问题讨论】:
-
@Kumar 这是一个很好的起点(正如我在回答中提到的那样),但 PITA 爬虫/机器人通常会忽略 robots.txt
-
@marto 你说的 PITA 机器人是什么意思
标签: html ip web-crawler bots