在网络上跟踪文章答案

【问题标题】：Tracking the articles across the web在网络上跟踪文章
【发布时间】：2014-05-02 06:04:23
【问题描述】：

这就是想法。

我有来自 BBC 新闻网站的高手文章说。这篇主要文章最初由 BBC 新闻发布，但它可能被网络上的许多其他网站使用。

方法一：

由于 Google 不提供任何 API。我实现了一个程序，使用 Python 和机械化从 Google 搜索结果中获取链接。但是，不推荐这种方法，因为我的 IP 可能会被阻止。我不想冒险这样做。

我是怎么做到的？

我将文章标题和文章作者组合为布尔查询，仅获取与主文章相似的匹配文章。结果还不错，但我不想用这个。

方法二：

我尝试使用 Google 自定义搜索查询，使用主文章中的关键字将搜索限制在有限的站点而不是整个网络。但结果并不好。我只需要指向其他网站使用的文章的链接。

谁能告诉我一些更好的方法？有没有我可以使用的可用于此目的的库？

【问题讨论】：

【解决方案1】：

解决这个问题的传统方法可以说是通过信息检索 (IR) 和自然语言处理。对于初学者，请参阅Similarity between two text documents，或参阅任何有关此主题的书籍。合适的python库是sklearn和NTLK

【讨论】：

【解决方案2】：

如果您担心自己的 IP 在废弃搜索结果时被禁止，您可能需要考虑使用其他搜索引擎的 API，该 API 可以提供您需要的数据（或阈值）。

例如，Microsoft 提供 Bing 的 Web Search API

使用这种方法，您不会无意中违反某些 TOS。

由于您没有具体指定要搜索的内容，您可以在以下位置找到您的“文章”的 API：

【讨论】：