【发布时间】:2011-07-07 23:42:18
【问题描述】:
我正在尝试通过 C# 在 google 中编写一个简单的搜索,该搜索将运行我选择的查询并检索前 50 个链接。在彻底搜索了类似的工具\正确的 API 之后,我意识到它们中的大多数已经过时了。我的第一次尝试是创建一个“简单的 HttpWebRequest”并扫描接收到的 WebResponse 中的“href=”,结果证明这根本没有回报(冗余)并且非常令人沮丧。我确实有一个 Google API,但我不确定如何将它用于此目的,尽管我知道每天有 1000 个限制。
吉尔
【问题讨论】:
-
我有一个向谷歌发送请求并解析返回响应的项目。我们必须每年多次重写解析模块,以跟随谷歌的标记变化。糟透了。虽然修复解析代码通常只需要几个小时。
-
@Snowbear,你在使用 HtmlAgility 包进行解析吗?
-
@Shiv,不,它是一种遗留部分,它仍然使用正则表达式。谢谢你提到这一点,下次我们重写那个噩梦时,我会调查一下。
-
@你能把你的发给我吗?
-
@snowbear,是的,我认为如果您使用 HtmlAgility 包并搜索链接,那么(在这种情况下)没关系,因为最终结果是您仍在寻找链接。当然,如果 Google 将其更改为每个结果显示多个链接,则您必须找到一种方法来区分给定结果项的一个链接和其他链接。
标签: c# information-retrieval google-search-api