【问题标题】:Nutch and Http POST authentication?Nutch 和 Http POST 身份验证?
【发布时间】:2012-07-05 22:13:07
【问题描述】:

我被困在需要抓取具有表单帖子的网站的地步。 Nutch 不支持这一点。 我该如何解决这个问题,以便我可以使用 Nutch 抓取这些网站?有没有更好的解决方案?

【问题讨论】:

    标签: post nutch


    【解决方案1】:
    1. 制作一个包含数据的文件:正则表达式用于需要 auth / URL 提交表单/表单数据的 URL
    2. 制作自己的http协议插件修改标准协议-httpclient插件。如果发出 http 请求的 URL 需要 auth 并且还没有进行 auth,那么去表单并发送它。

    这是最简单的解决方案。问题是,对于大量网站,没有一种简单的解决方案。 cookie过期/登录时使用Javascript等问题。搜索Nutch的JIRA,有很多讨论。

    【讨论】:

      【解决方案2】:

      这是你们正在寻找的答案:

      http://lifelongprogrammer.blogspot.com/2014/02/part1-using-apache-http-client-to-do-http-post-form-authentication.html

      https://issues.apache.org/jira/browse/NUTCH-827

      这两个链接有完整和示例代码。如果您正确执行每个步骤,那么您将能够在 Nutch 中实现基于表单的身份验证。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2020-04-30
        • 2017-06-09
        • 1970-01-01
        • 2012-10-14
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多