【问题标题】:Tracking the articles across the web在网络上跟踪文章
【发布时间】:2014-05-02 06:04:23
【问题描述】:

这就是想法。

我有来自 BBC 新闻网站的高手文章说。这篇主要文章最初由 BBC 新闻发布,但它可能被网络上的许多其他网站使用。

方法一:

由于 Google 不提供任何 API。我实现了一个程序,使用 Python 和机械化从 Google 搜索结果中获取链接。 但是,不推荐这种方法,因为我的 IP 可能会被阻止。我不想冒险这样做。

我是怎么做到的?

我将文章标题和文章作者组合为布尔查询,仅获取与主文章相似的匹配文章。结果还不错,但我不想用这个。

方法二:

我尝试使用 Google 自定义搜索查询,使用主文章中的关键字将搜索限制在有限的站点而不是整个网络。但结果并不好。我只需要指向其他网站使用的文章的链接。

谁能告诉我一些更好的方法?有没有我可以使用的可用于此目的的库?

【问题讨论】:

    标签: python search-engine google-custom-search


    【解决方案1】:

    解决这个问题的传统方法可以说是通过信息检索 (IR) 和自然语言处理。对于初学者,请参阅Similarity between two text documents,或参阅任何有关此主题的书籍。合适的python库是sklearnNTLK

    【讨论】:

    • 我的目标是在 web 上找到类似的文章。我的问题是 google 是否是获取这些文章或任何其他想法的唯一途径?
    【解决方案2】:

    如果您担心自己的 IP 在废弃搜索结果时被禁止,您可能需要考虑使用其他搜索引擎的 API,该 API 可以提供您需要的数据(或阈值)。

    例如,Microsoft 提供 Bing 的 Web Search API

    http://www.bing.com/developers/s/APIBasics.html

    使用这种方法,您不会无意中违反某些 TOS。

    由于您没有具体指定要搜索的内容,您可以在以下位置找到您的“文章”的 API:

    http://www.programmableweb.com/apis/directory/1?apicat=Search

    【讨论】:

    • 我也试过 Bing 搜索。结果不如 google。
    猜你喜欢
    • 2015-04-23
    • 2021-04-11
    • 1970-01-01
    • 2021-09-30
    • 2022-10-02
    • 2015-06-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多