【发布时间】:2013-01-17 00:22:27
【问题描述】:
我使用 nutch 3 个域(domain01、domain02 和 domain03)进行爬网。 我想获取所有包含特定关键字的帖子(例如“冠军联赛”),然后在结果中首先显示来自 domain02 的帖子、来自 domain01 的下一个帖子和来自 domain03 的最后一个帖子。只是我想按域对它们进行优先排序
如果有办法设置域的优先级?
【问题讨论】:
我使用 nutch 3 个域(domain01、domain02 和 domain03)进行爬网。 我想获取所有包含特定关键字的帖子(例如“冠军联赛”),然后在结果中首先显示来自 domain02 的帖子、来自 domain01 的下一个帖子和来自 domain03 的最后一个帖子。只是我想按域对它们进行优先排序
如果有办法设置域的优先级?
【问题讨论】:
如果您始终拥有相同的域顺序,那么您可以使用索引时间文档级别提升或查询时间按域(或域顺序)排序然后按分数。
如果域顺序取决于查询,您可以使用QueryElevationComponent,但我认为您必须为每个提升规则提供完整的 ID 列表,并且它可能不支持顺序。
您也可以编写自己的Custom Function Query 或组件(类似于查询提升一)。
【讨论】: