【问题标题】:how to set nutch to extract content of only urls present on seed file如何设置 nutch 以提取种子文件中仅存在的 url 的内容
【发布时间】:2016-04-17 20:35:28
【问题描述】:

我正在使用 nutch 2.3,我正在尝试获取 seed.txt 文件中存在的一些 url 的 html 内容,我将这些内容传递给 nutch 到 HBase。

所以问题如下---

第一次抓取: 一切运行良好,我将数据以 url 作为行键进入 HBase。

第二次运行: 当我第二次使用不同的 url 运行爬网时,我看到有很多 url 用于获取作业正在运行,而我的种子文件中只有一个 url。

所以我的问题是如何确保 nutch only 抓取并获取 seed.txt 中存在的 url 的 html 内容,而不是 urls 中存在的 out 链接 html 的 seed.txt 内容

【问题讨论】:

    标签: apache web-crawler hbase nutch


    【解决方案1】:

    我认为您只想获取种子文件中给出的域。对于该更新 nutch-site.xml 如下

      <property>
       <name>db.ignore.external.links</name>
       <value>true</value>
      </property>
    

    【讨论】:

    • 这只会忽略指向外部主机的链接。它不会阻止获取同一域中的页面。
    • 是的,你是对的。我必须自定义 nutch 来实现上述功能
    【解决方案2】:

    您可以将 crawl 命令的迭代保持为“1”,然后 nutch 将仅爬取 seed.txt 文件中存在的 url。

    例如

    bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1
    

    此外,您可以通过配置 conf 目录中的 regex-urlfilter.txt 来限制外部链接。

    #accept anything else
    +http://doamin.com
    

    【讨论】:

    • 谢谢你先回复rocksta 我想问你能不能告诉我你想让我在regex-urlfilter.txt中插入的文本是什么意思,你能详细说明一下是什么意思吗? crawl 命令的含义,因为我不这么认为,我的 crawl 命令处理任何 -i 开关
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多