【问题标题】:Nutch Crawling Result as JSONNutch 抓取结果为 JSON
【发布时间】:2013-06-21 05:03:42
【问题描述】:

我正在使用apache-nutch-2.1 进行抓取。是否可以将爬取的结果作为 json 获取?我编写了一个使用 apache-nutch-2.1 进行爬网的 java 程序。我将如何将爬取的结果作为 JSON 检索。这可能是一个愚蠢的问题,但是当我用谷歌搜索它时。与此无关。

如何添加我获取爬取结果的json?

【问题讨论】:

    标签: java apache web-crawler nutch


    【解决方案1】:

    您正在寻找的功能已经实现:Nutch-932 retrieve crawl results as JSON

    上面的链接也有使用示例。

    【讨论】:

    • 我已经使用 /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch 爬行 urls -dir crawl -depth 10 -topN 1000 我将如何实现json
    • @jackyesind 该页面上有一个示例。似乎需要将爬取的结果传递给 json_pp,这将为您提供所需的 JSON 格式的数据。
    • @pallandt 我是 nutch 爬行的新手,我使用了这里提到的步骤sites.google.com/site/profileswapnilkulkarni/tech-talk/… 在这个我将如何添加这个例子
    • 我明白了,所以你在 Ubuntu 上?您是否尝试过运行相当于this example
    • 当然用您自己的 URL 代替。如果你在 Debian/Unix 上,你应该已经安装了 curl,如果你想仔细检查,你可以运行 apt-get install curl
    猜你喜欢
    • 2010-10-31
    • 2016-12-22
    • 1970-01-01
    • 2017-09-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多