【发布时间】:2011-11-08 00:53:48
【问题描述】:
如果您对搜索 API 进行过任何认真的研究,就会知道它们中的大多数都有大量的 TOS/TOU 限制,这使得它们几乎无法用于除了最愚蠢的应用程序之外的任何应用程序。
Bing 的 2.0 API、Yahoo Search BOSS、Google Places、Google AJAX Search (dead) 等对我们来说限制太多了。我只需要运行一次有限且相对较少的查询(可能 500k),存储结果中的特定数据以在我们的应用程序中使用。
例如,我们需要将企业名称与其目标网站进行匹配(我们已经编写了算法,以便在必要时从一组结果中做出“最佳猜测”;我们只需要一个普通的结果集)。此外,我们需要将地址与该公司相匹配。
不幸的是,我可以找到零搜索 API,它允许我们以编程的、非用户启动的方式触发查询。
我们甚至非常渴望为访问此类数据的人提供冷硬现金;谷歌、必应、雅虎和其他公司似乎根本不想要我们的钱(正如他们的 TOS 所证明的那样)......
有什么想法吗?
【问题讨论】:
-
大家好!我看到这已经获得了密切的投票。如果有一个更适合这个问题的 SO 社区,请告诉我。老实说,我浏览了所有这些,原来的 SO 正确似乎是最相关的。谢谢! :)
-
你试过 Blekko 吗? “我可以找到零搜索 API,这将允许我们以编程的、非用户启动的方式触发查询”是什么意思?围绕 Google 的自定义搜索引擎进行了讨论,该引擎可以搜索整个网络(添加站点并稍后将其删除)。您也可以为自定义搜索引擎购买“积分”,尽管有些用户在这种情况下也发现了限制。无论如何,我理解你关于当前搜索 API 局限性的观点,谷歌是最好的搜索引擎,即使其他人竞争也没有更大的索引。
-
非常感谢您的回复,sw。根据您的建议,我查看了 Blekko,他们的 TOU 也非常严格。 (但目前,Blekko API 仍有一线希望:dev-ops.net/2011/02/02/…)Google 的 CSE 对我们不起作用;我们更喜欢长期合法的解决方案,而不是短期的、法律上有问题的补丁。我们有钱,愿意付出! :) 为什么没有大牌愿意接纳像我们这样具有合法业务需求的实体?
-
好吧,我什至写了一篇关于它的文章:blog.databigbang.com/google-search-no-api,因为那里有商机。我认为在您的情况下,您必须添加 [许多] 数据源的组合,但是混合/清理/等数据并不简单。我有兴趣通过聊天来讨论它,因为这是一个非常有趣的话题。我现在在 freenode 上的#bigdata 上。
标签: api search screen-scraping data-mining