【问题标题】:crawling intranet credentials issues抓取 Intranet 凭据问题
【发布时间】:2014-04-02 08:26:06
【问题描述】:

我一直在尝试对 Intranet 和 Internet 进行爬网和索引。但它根本不起作用,我认为这是由于代理/安全限制。我将索引解析为true,但内容长度为-1,因此它什么也没爬。无论如何,我是否可以将我拥有的凭据放在 Intranet 上,以便在开放搜索服务器中抓取它,知道它只有基本/摘要或 NTLM 身份验证?

除了爬虫选项卡中的代理之外,还有没有在 oss 上配置代理? 我已经设置了凭据,但似乎 oss 无法识别公司的代理,因此它没有给我输入凭据的框。

【问题讨论】:

  • 这个问题存在很多问题,使人们不想解决它。对于初学者来说,1)你想索引整个互联网?您将需要庞大的、价值数十亿美元的数据中心来实现这一目标。 2)“它根本不起作用” - 什么是“它”?如果不详细说明您正在尝试做什么以及您正在使用什么工具,那么您第一句话之后的所有内容都是毫无意义的。我建议描述您正在使用的特定工具和步骤,并描述确切的输入/输出。这里的人在了解问题后会很乐意提供帮助。
  • 我已经声明了该工具打开搜索服务器 Mr Fig ;) 我并没有试图抓取所有的互联网。关于这个问题,这是一个代理问题。

标签: search web-crawler open-search-server


【解决方案1】:

从 1.5.4 版本开始,OpenSearchServer 支持代理身份验证。

这是 GITHub 问题: https://github.com/jaeksoft/opensearchserver/issues/589

目前,v1.5.4 仅作为夜间版本提供。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-16
    • 1970-01-01
    • 2022-11-29
    • 2014-12-01
    相关资源
    最近更新 更多