【问题标题】:Apache access log investigationApache访问日志调查
【发布时间】:2016-02-28 04:47:55
【问题描述】:

我一直在监控我们电子商务服务器的谷歌分析。通常我们会有少于 10 名访客。但是最近我看到了不寻常的机器人活动。有时它一次会跳到 50 多个连接。一切都在几分钟之内。我不确定它是一个糟糕的爬虫还是有人在我们的谷歌 PPC 广告活动中进行点击欺诈。

以下是我们 access_log 的一小部分。检查 ip 地址并没有透露太多信息。 ipaddresses 也是唯一的,当我比较几天时,我找不到来自同一 ip 的任何重复访问。

76.189.130.73 - - [27/Feb/2016:21:32:25 -0600] "GET /hp-ce260x-toner-cartridge.html HTTP/1.1" 200 11548 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/4E423F"

71.82.43.43 - - [27/Feb/2016:21:32:26 -0600] "GET /hp-cb540a-oem-black-toner-cartridge.html HTTP/1.1" 200 11497 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36"

68.4.69.7 - - [27/Feb/2016:21:32:25 -0600] "GET /hp-c9723a-magenta-laser-toner-cartridge.html HTTP/1.1" 200 11233 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36"

50.54.179.218 - - [27/Feb/2016:21:32:26 -0600] "GET /hp-q5942xd-black-toner-cartridge.html HTTP/1.1" 200 11299 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36"

64.213.217.226 - - [27/Feb/2016:21:32:28 -0600] "GET /hp-q2682a-yellow-toner-cartridge.html HTTP/1.1" 200 11336 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36"

50.25.245.238 - - [27/Feb/2016:21:32:29 -0600] "GET /hp-ce255x-oem-high-yield-toner-cartridge.html HTTP/1.1" 200 11196 "-" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36"

我不确定这是否相关,但我也看到一些从 ahrefs.com/robot/ 和 webmeup-crawler.com/ 爬取,但它们的 IP 地址是一致的。我已经修改了 robots.txt 来阻止 ahrefs.com bot。

【问题讨论】:

  • 我认为您需要在另一个 StackExchange 站点上发布此内容,因为它与编程无关。考虑 serverfault 安全站点。

标签: apache logging webserver web-crawler


【解决方案1】:

robots.txt 可能会被滥用,但它主要适用于寻找可搜索内容的 google bot。我在自己的日志中注意到,google 和随机 IP 地址都会尝试各种不同的目录,包括:

/phpMyAdmin/scripts/setup.php
/phpmyadmin/scripts/setup.php
/pma/scripts/setup.php
/robots.txt (Google in this case)
'9\xdd\xb1\xf8\xa1\xa8\xa8\x82\x904\x1f\x84\xbeNv\x7fa\xd9\xd4,)\x98^\xbf\x98\x14\x82q
\x19\xa5\b\x7f\xee\x98\x02\xde_\xa1\x1b\xc0
\x06\xe6\xf2\xba\"!=\xe1\x18?\xb6\xf5$\xb4n0[\x92\xe9_
\x8b[Y5nS\x1d (some kind of hash cracker)
//wp-login.php
/blog//wp-login.php
/wordpress//wp-login.php
/wp//wp-login.php
/?author=1

他们寻找的主要是从免费下载模板中预先创建的目录。 您应该知道几乎所有从 66.249 开始的 IP 都是 google。 其余的可以自己查。 在您的情况下,机器人似乎正在寻找一台 HP 打印机来搞乱。

希望这有帮助

【讨论】: