【发布时间】:2014-05-02 06:04:23
【问题描述】:
这就是想法。
我有来自 BBC 新闻网站的高手文章说。这篇主要文章最初由 BBC 新闻发布,但它可能被网络上的许多其他网站使用。
方法一:
由于 Google 不提供任何 API。我实现了一个程序,使用 Python 和机械化从 Google 搜索结果中获取链接。 但是,不推荐这种方法,因为我的 IP 可能会被阻止。我不想冒险这样做。
我是怎么做到的?
我将文章标题和文章作者组合为布尔查询,仅获取与主文章相似的匹配文章。结果还不错,但我不想用这个。
方法二:
我尝试使用 Google 自定义搜索查询,使用主文章中的关键字将搜索限制在有限的站点而不是整个网络。但结果并不好。我只需要指向其他网站使用的文章的链接。
谁能告诉我一些更好的方法?有没有我可以使用的可用于此目的的库?
【问题讨论】:
标签: python search-engine google-custom-search