高效的网络爬取

【问题标题】：Efficient web crawling高效的网络爬取
【发布时间】：2010-12-28 12:44:17
【问题描述】：

在 Java 中实现以下方法的好方法是什么？我想出的方法是为我的数据库获取新的 Web 数据？比较一堆数组元素是要走的路吗？有些想法会很棒。

Crawler imdbCrawler = new Crawler(files.getLocalTitles("C:\\Movies"));
//add these titles to the database
//query to get existing DB titles, get directory titles and crawl negated union of these titles

【问题讨论】：

更多关于你想要完成的事情和你尝试过的事情的信息会很棒。

标签： java web-crawler

【解决方案1】：

你知道，IMDB offers their database for free...当然还有一些商业用途的注意事项。

其次，最好使用某种结构/集合，因此如果集合中的对象有数据，则表示您已经抓取过它。如果没有，它仍然需要爬行。如果您找到新链接，只需将其添加到集合中（没有数据），您的数据收集线程稍后会找到这些。

德克尔

【讨论】：