【发布时间】:2016-02-28 04:47:55
【问题描述】:
我一直在监控我们电子商务服务器的谷歌分析。通常我们会有少于 10 名访客。但是最近我看到了不寻常的机器人活动。有时它一次会跳到 50 多个连接。一切都在几分钟之内。我不确定它是一个糟糕的爬虫还是有人在我们的谷歌 PPC 广告活动中进行点击欺诈。
以下是我们 access_log 的一小部分。检查 ip 地址并没有透露太多信息。 ipaddresses 也是唯一的,当我比较几天时,我找不到来自同一 ip 的任何重复访问。
76.189.130.73 - - [27/Feb/2016:21:32:25 -0600] "GET /hp-ce260x-toner-cartridge.html HTTP/1.1" 200 11548 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/4E423F"
71.82.43.43 - - [27/Feb/2016:21:32:26 -0600] "GET /hp-cb540a-oem-black-toner-cartridge.html HTTP/1.1" 200 11497 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36"
68.4.69.7 - - [27/Feb/2016:21:32:25 -0600] "GET /hp-c9723a-magenta-laser-toner-cartridge.html HTTP/1.1" 200 11233 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36"
50.54.179.218 - - [27/Feb/2016:21:32:26 -0600] "GET /hp-q5942xd-black-toner-cartridge.html HTTP/1.1" 200 11299 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36"
64.213.217.226 - - [27/Feb/2016:21:32:28 -0600] "GET /hp-q2682a-yellow-toner-cartridge.html HTTP/1.1" 200 11336 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36"
50.25.245.238 - - [27/Feb/2016:21:32:29 -0600] "GET /hp-ce255x-oem-high-yield-toner-cartridge.html HTTP/1.1" 200 11196 "-" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36"
我不确定这是否相关,但我也看到一些从 ahrefs.com/robot/ 和 webmeup-crawler.com/ 爬取,但它们的 IP 地址是一致的。我已经修改了 robots.txt 来阻止 ahrefs.com bot。
【问题讨论】:
-
我认为您需要在另一个 StackExchange 站点上发布此内容,因为它与编程无关。考虑 serverfault 安全站点。
标签: apache logging webserver web-crawler