【问题标题】:Crawling video with apache nutch使用 apache nutch 抓取视频
【发布时间】:2016-04-19 15:23:15
【问题描述】:

如何使用 Apache Nutch 获取这样的视频标签:

<video width="320" height="240" controls>
  <source src="video/video.mp4" type="video/mp4">
  <source src="video/video.ogg" type="video/ogg">
  Your browser does not support the video tag.
</video>

Apache nutch 可以获取图像标签,但不适用于视频源。有人可以指导我吗?

感谢您的帮助

【问题讨论】:

  • 视频链接类似于 URL/video/video.mp4 或 URL/video/video.ogg。所以,使用他们的 src 属性。

标签: apache hadoop web-crawler nutch


【解决方案1】:

我已经通过在插件 parse-html (DOMContentUtils.java) 上添加源标签来解决这个问题

linkParams.put("frame", new LinkParams("frame", "src", 0));
linkParams.put("iframe", new LinkParams("iframe", "src", 0));
linkParams.put("script", new LinkParams("script", "src", 0));
linkParams.put("link", new LinkParams("link", "href", 0));
linkParams.put("img", new LinkParams("img", "src", 0));
linkParams.put("source", new LinkParams("source", "src", 0))

然后用 ant 重建。

希望对他人有所帮助

【讨论】:

    【解决方案2】:

    您需要将其插入 parse-plugins.xml。

    <mimeType name="video/mp4">
        <plugin id="parse-tika" />
    </mimeType>
    
    <mimeType name="video/ogg">
        <plugin id="parse-tika" />
    </mimeType>
    

    并在插件中添加 parse-tika 包含 nutch-site.xml 的属性。

    <property>
            <name>plugin.includes</name>
            <value>protocol-http|urlfilter-regex|parse-(text|html|tika)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|urlnormalizer-(pass|regex|basic)</value>
    
        </property>
    

    【讨论】:

    • 感谢 Rocksta 的帮助!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多