【问题标题】:Efficient web crawling高效的网络爬取
【发布时间】:2010-12-28 12:44:17
【问题描述】:

在 Java 中实现以下方法的好方法是什么?我想出的方法是为我的数据库获取新的 Web 数据?比较一堆数组元素是要走的路吗?有些想法会很棒。

Crawler imdbCrawler = new Crawler(files.getLocalTitles("C:\\Movies"));
//add these titles to the database
//query to get existing DB titles, get directory titles and crawl negated union of these titles

【问题讨论】:

  • 更多关于你想要完成的事情和你尝试过的事情的信息会很棒。

标签: java web-crawler


【解决方案1】:

你知道,IMDB offers their database for free...当然还有一些商业用途的注意事项。

其次,最好使用某种结构/集合,因此如果集合中的对象有数据,则表示您已经抓取过它。如果没有,它仍然需要爬行。如果您找到新链接,只需将其添加到集合中(没有数据),您的数据收集线程稍后会找到这些。

德克尔

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-05-19
    • 2018-10-12
    • 2017-11-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-10-26
    • 2011-02-15
    相关资源
    最近更新 更多