【发布时间】:2014-04-02 08:26:06
【问题描述】:
我一直在尝试对 Intranet 和 Internet 进行爬网和索引。但它根本不起作用,我认为这是由于代理/安全限制。我将索引解析为true,但内容长度为-1,因此它什么也没爬。无论如何,我是否可以将我拥有的凭据放在 Intranet 上,以便在开放搜索服务器中抓取它,知道它只有基本/摘要或 NTLM 身份验证?
除了爬虫选项卡中的代理之外,还有没有在 oss 上配置代理? 我已经设置了凭据,但似乎 oss 无法识别公司的代理,因此它没有给我输入凭据的框。
【问题讨论】:
-
这个问题存在很多问题,使人们不想解决它。对于初学者来说,1)你想索引整个互联网?您将需要庞大的、价值数十亿美元的数据中心来实现这一目标。 2)“它根本不起作用” - 什么是“它”?如果不详细说明您正在尝试做什么以及您正在使用什么工具,那么您第一句话之后的所有内容都是毫无意义的。我建议描述您正在使用的特定工具和步骤,并描述确切的输入/输出。这里的人在了解问题后会很乐意提供帮助。
-
我已经声明了该工具打开搜索服务器 Mr Fig ;) 我并没有试图抓取所有的互联网。关于这个问题,这是一个代理问题。
标签: search web-crawler open-search-server