【发布时间】:2011-01-26 16:40:45
【问题描述】:
我需要向爬虫提供对私有 wiki 的访问权限。
wiki 对所有匿名用户关闭 - 您必须登录才能查看内容,但我需要提供单个爬虫(由用户代理字符串和单个 IP 标识)完全访问权限,以便查看内容可以被索引。它是一个内部爬虫,因此只有在成功登录后才能访问其资源。
关于如何启用对单个客户端(而不是用户,因为爬虫无法将自己登录到 wiki)的访问有任何建议吗?
【问题讨论】:
-
你为什么要使用爬虫?为什么不使用默认搜索或 Lucene?
-
因为 Wiki 只是 Intranet 的一部分。我想要实现的是全面搜索。我们目前正在为 Wiki 使用 Lucene 搜索插件,但是 Intranet 上有几个区域需要进行搜索。
标签: web-crawler mediawiki user-permissions