【发布时间】:2015-03-30 09:43:18
【问题描述】:
我是 Nutch 的新手。我需要抓取网络(比如几百个网页),读取抓取的数据并进行一些分析。
我点击了链接https://wiki.apache.org/nutch/NutchTutorial(并集成了 Solr,因为我将来可能需要搜索文本)并使用一些 URL 作为种子来运行爬网。
现在,我在本地计算机中找不到 text/html 数据。我在哪里可以找到数据以及以文本格式读取数据的最佳方式是什么?
版本
- apache-nutch-1.9
- solr-4.10.4
【问题讨论】:
标签: web-crawler nutch