【问题标题】:Crawl Image using Apache Nutch使用 Apache Nutch 抓取图像
【发布时间】:2017-12-03 11:02:26
【问题描述】:

我安装了 Apache Nutch 2.3.1 和 Solr 6.5.1 和 MongoDB 3.4.7。 在我抓取包含许多图像的 url 之后,在 Solr 和 mongoDB 中没有任何图像和视频。 我还更改了 apache nutch 中的 regex-urlfilter.txt 文件,并删除了与 image(.png,.jpeg,.gift,...) 相关的后缀。 之后我更改了 suffix-urlfilter.txt 文件并评论 jpeg,gif,png。
这样做之后,Apache Nutch 不会抓取图像。 现在我想知道如何抓取图像并在 Solr 中查看? 当我读到它时,我知道我应该创建插件。我的印象是否正确?

【问题讨论】:

    标签: mongodb apache solr web-crawler nutch


    【解决方案1】:

    Nutch supports several formats:纯文本、HTML/XHTML+XML、XML、MS Office 文件、Adobe PDF、RSS、RTF、MP3。不幸的是,不支持任何类型的图像文件。除此之外,我很好奇,你想在图像文件中索引什么?

    【讨论】:

    • 感谢您的回复。实际上,我想使用获取特定 url 中的所有图像。那么,是否有任何爬取图像的解决方案?
    • Nutch 是索引工具,你想从图像中索引什么?
    • 我只是想爬取图片,做一个大数据集来做图片处理。其实我想用apache nutch来一张一张下载图片!
    • 您是如何解决问题的?你用 Nutch 下载图片吗?请提供一些细节?
    【解决方案2】:

    如果我理解您的问题,您想要完成的是从图像中提取所有元数据并仅在 Solr 中对其进行索引,对吗?

    如果 Nutch 甚至没有获取您的图像,则更有可能是某些 URL 过滤器将 URL 排除在获取之外(检查日志)。您需要描述您对不同文件所做的更改,否则无法为您提供帮助。

    现在,回到最初的问题,如果您只想索引图像 URL(连同元数据),那么您需要过滤索引到 Solr 中的内容。不幸的是,Nutch 2.3 不提供(开箱即用)此功能。在 Nutch 1.x 中,您可以使用 mimetype-filter,它允许您根据 URL 的 mime 类型指定要索引到 Solr/ES 中的内容。我的建议是使用 Nutch 1.x,除非你有充分的理由使用 Nutch 2.x。否则,您可以将 mimetype-filter 插件移植到 2.x 或编写您自己的支持您自己的逻辑的 IndexingFiler

    请记住,您将在 Solr 中获得的信息仅限于 tika 可以从图像文件(元数据)中提取的信息,而这些信息通常不会很好地整理。

    【讨论】:

    • 感谢您的回复。其实我想在mongoDB中分别爬取和保存图片、视频、文本等格式的数据,然后对提取的数据进行图像处理和文本挖掘。但是现在,在我创建了一个 url 之后,我只在 mongoDB 中看到了部分文本。
    • 经过这些天我进行的大量搜索以及您的建议,我知道我的插件是我的许多解决方案。我也想测试这个插件。但我不知道我必须如何将此插件添加到我安装的 apache nutch 中???我找不到一步一步的教程。让我心烦意乱的另一件事是,Taika 有可能成为我的解决方案吗?它是什么 ? Taika和矿井式插件有什么区别??
    • 如果您指的是 Tika,Nutch 已经使用 tika 来提取我在回答中提到的元数据。由于您使用的是 Nutch 2.3.1,因此 mimetype-plugin 不适用于此版本的 Nutch。因此,您可以开始使用 Nutch 1.x 或尝试将插件移植到 Nutch 2.x。
    • 感谢您的回复。我仍然面临使用 apache nutch 将图像存储在 mongoBD 中的挑战。据我了解,我必须为 crwal 图像创建一个插件。你知道 apache nutch 的标准图片插件吗?
    • 实际上我想将文本存储在 mongoDB 中,但在 crwal 之后,我只看到许多链接而不是文本。有什么方法可以将链接内容直接存储到 mongoDB 中?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多