【发布时间】:2014-06-06 11:52:16
【问题描述】:
我是搜索引擎的新手,我发现 googlenews 非常有趣。
我想写一个简单的爬虫
- 仅解析三个不同新闻网站的文章链接。
- 将链接保存在数据库 (mysql) 中,并附上链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。
如你所知,新闻网站每天都会生成链接(而且我基本上想解析他们的所有链接(不仅仅是今天打印的那些,还有之前生成的所有链接......以及所有这些链接保存在新闻网站数据库中)。
我不知道我要抓取的新闻网站使用哪个数据库,我也没有访问权限。
那么googlenews是如何解析所有新闻站点的所有文章链接的,包括很久以前生成的链接呢? googlenews 是否可以访问所有这些网站的数据库?
爬虫如何知道新链接已添加到网站?例如,如果一个新闻网站发布了一篇新文章,而我希望我的爬虫立即解析链接,那么爬虫如何知道(googlenews 也能够做到这一点......那么如何......?)即爬虫立即知道新文章链接?还是谷歌只是以固定的时间间隔(每隔一小时等)抓取网站?
Google 新闻爬虫如何知道新网站何时启动? 爬虫是自动寻找新网站,还是谷歌工程师基本上持有固定的新闻网站列表来抓取?
关于谷歌搜索爬虫可以问同样的问题,即爬虫应该知道一个新的域已经启动,以便它可以抓取它,因此确保谷歌数据库反映万维网的最新状态。
那么,是否有任何开放的全球数据库可以保存所有已启动的域并且谷歌基本上会抓取它?
- 实施新闻网站爬虫的最佳工具是什么?
Apache Lucene、Nutch、Solr、ElasticSearch?
我对以上四个问题的答案非常好奇。
请帮忙。
提前致谢。
【问题讨论】:
-
大部分谷歌不允许你抓取它。他们有很多“反爬代码”技术。
标签: php mysql web-crawler