【发布时间】:2017-08-20 21:31:05
【问题描述】:
Builtwith.com 和类似服务(收费)提供使用特定技术(如 SalesForce 或 NationBuilder)构建的域列表。有一些我感兴趣的技术,builtwith 不会扫描,可能是因为它们的市场占有率太小。
如果我们知道某个网站使用了某些显示某项技术的网页签名,那么识别尽可能多的这些网站的最佳方法是什么?我们预计会有 1000 个,我们对流量排名前 1000 万的站点感兴趣。 (我们认为最大的网站不会使用这种技术。)
我有一个开源网络爬虫列表 - http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ - 但我的用例似乎与爬虫的许多常规标准不同,因为我们只想保存具有此签名的域的“命中”。所以我们不需要很快,但我们确实需要检查网站的所有页面直到找到命中,只使用负责任的抓取实践等。什么是最好的?
或者,不是调整爬虫并运行它,有没有一种方法可以让 Google 或其他搜索引擎找到页面特征,而不是用户可见的内容,这是一种更好的方法?
【问题讨论】:
标签: web-crawler