【发布时间】:2017-12-03 11:02:26
【问题描述】:
我安装了 Apache Nutch 2.3.1 和 Solr 6.5.1 和 MongoDB 3.4.7。
在我抓取包含许多图像的 url 之后,在 Solr 和 mongoDB 中没有任何图像和视频。
我还更改了 apache nutch 中的 regex-urlfilter.txt 文件,并删除了与 image(.png,.jpeg,.gift,...) 相关的后缀。
之后我更改了 suffix-urlfilter.txt 文件并评论 jpeg,gif,png。
这样做之后,Apache Nutch 不会抓取图像。
现在我想知道如何抓取图像并在 Solr 中查看?
当我读到它时,我知道我应该创建插件。我的印象是否正确?
【问题讨论】:
标签: mongodb apache solr web-crawler nutch