【发布时间】:2010-04-26 18:08:03
【问题描述】:
我正在寻找一个搜索引擎,它可以定期(每天)扫描大约 100 个页面以查找更改,并在发现自上次扫描以来的更改时索引相关网站。它应该能够处理大约 100 个站点,每个站点平均有 4000 个页面,平均大小约为 5k,每个站点位于不同的服务器上(但只有一个集中式搜索引擎)。这些站点中的每一个都将有一个搜索表单,该表单将被提交到该搜索引擎。返回的结果必须特定于提交它们的站点。我为外部网站创建了模板,因此我可以为搜索表单提供一个隐藏字段,用于指定从哪个站点提交表单。
你会建议我研究什么?
如果可行,我很乐意为此使用基于 Python 的系统。
我目前正在使用名为 iSearch2 的东西。在这个规模上它似乎不太稳定,产品的描述表明它并不是真的打算做多个站点,是用 PHP 编写的(这对我来说不如 Python 舒服),并且对于我的具体情况还有一些其他缺点情况。
【问题讨论】:
-
这看起来像是一个软件推荐请求,属于超级用户。
标签: python search-engine