【问题标题】:Filter google query results过滤谷歌查询结果
【发布时间】:2012-02-17 20:36:27
【问题描述】:

我正在使用 wiki xml 转储上的 lucene 为 wikipedia 文章编写搜索引擎,当我给出“site:en.wikipedia”时,我想计算引擎与特定查询的 google wiki 结果相比的准确性.org”以及查询。我想为多个查询执行此操作,因此我手动获取谷歌搜索结果 URL。我让谷歌 API 使用机器人搜索谷歌,但问题是我想摆脱某些类型的结果,比如 “/类别:” “/图标:” “/文件:” “/照片:” 和用户页面。

但是我没有找到一种方便的方法来执行此操作,除了使用发出查询的迭代方法,获取 n 个结果,然后使用正则表达式过滤掉,然后检索剩余的 (n-x) 个结果等等上。当我这样做时,谷歌一直在阻止我。

是否有一种智能方法可以使用 Java 以我想要的方式获取 Google 结果?

提前谢谢各位。

【问题讨论】:

    标签: lucene google-api mediawiki wikipedia


    【解决方案1】:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-14
      • 1970-01-01
      • 2012-04-20
      • 2019-12-29
      • 1970-01-01
      相关资源
      最近更新 更多