使用 Web Crawler 抓取 Web 数据答案

【问题标题】：Crawl Web Data using Web Crawler使用 Web Crawler 抓取 Web 数据
【发布时间】：2011-03-30 06:05:02
【问题描述】：

我想使用网络爬虫并爬取特定网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业、项目演示等。我的问题是我可以使用网络爬虫并下载已上传到学习管理系统中的文件。在我下载它们之后，我想在它们上创建一个索引，以便查询这组文档。用户可以将我的应用程序用作搜索引擎。爬虫可以做到这一点吗？我知道 webater（用 Java 编写的爬虫）

【问题讨论】：

如果您可以手动查看作业、演示文稿等，爬虫也可以。
我可以将它们视为一个链接，单击该链接会被下载..
"我想使用网络爬虫并爬取特定网站。"什么网站？网址是什么？

标签： java web-crawler

【解决方案1】：

在 Java SingleThread 中下载文件。
解析文件（你可以从nutch的解析插件中得到灵感）。
使用 lucene 创建索引

【讨论】：

我不明白第 1 步。 Java中的单线程是什么。我知道java中的线程。你能提供更多关于这个的信息吗？？
将 Lucene 推荐给如此小规模的任务，这是我听过的最荒谬的事情。使用 SQLite，您将在一个小时内完成。

【解决方案2】：

如果你想使用真正的网络爬虫，用户http://www.httrack.com/

它为您提供了许多选项来复制网站或网页上的内容，包括 Flash。它适用于 windows 和 mac。

然后您可以按照上面的建议执行步骤 2 和 3。

【讨论】：