【发布时间】:2012-02-17 20:36:27
【问题描述】:
我正在使用 wiki xml 转储上的 lucene 为 wikipedia 文章编写搜索引擎,当我给出“site:en.wikipedia”时,我想计算引擎与特定查询的 google wiki 结果相比的准确性.org”以及查询。我想为多个查询执行此操作,因此我手动获取谷歌搜索结果 URL。我让谷歌 API 使用机器人搜索谷歌,但问题是我想摆脱某些类型的结果,比如 “/类别:” “/图标:” “/文件:” “/照片:” 和用户页面。
但是我没有找到一种方便的方法来执行此操作,除了使用发出查询的迭代方法,获取 n 个结果,然后使用正则表达式过滤掉,然后检索剩余的 (n-x) 个结果等等上。当我这样做时,谷歌一直在阻止我。
是否有一种智能方法可以使用 Java 以我想要的方式获取 Google 结果?
提前谢谢各位。
【问题讨论】:
标签: lucene google-api mediawiki wikipedia