【发布时间】:2011-01-08 15:52:39
【问题描述】:
我想实施某种服务,我的客户可以使用它来找到他们的公司 一种。博客、论坛 湾。脸书、推特 C。评论网站
一个。博客、论坛 这只能通过爬虫来完成,对吧?一个在论坛/博客上寻找 robots.txt 的爬虫,然后选择性地阅读论坛/博客的内容(当然还有链接)。 但是从哪里开始呢?我可以使用一组网站来开始爬行吗?我必须预先定义它们还是可以先使用其他搜索引擎?例如。在 Google 中搜索该公司,然后抓取 SERP?合法吗?
b.脸书、推特 他们有 API,所以我认为帽子应该不是问题。
c。评论网站 我查看了一些评论网站的 TOS,他们写道,不允许使用自动软件抓取他们的网站。另一方面,与我相关的网站在他们的 robots.txt 中没有被禁止。这里有什么重要的?
欢迎任何其他提示。
提前致谢:-)
【问题讨论】:
标签: java monitoring