【问题标题】:extracting country, city and venue from google search从谷歌搜索中提取国家、城市和地点
【发布时间】:2014-03-29 08:39:39
【问题描述】:

我需要从谷歌搜索结果中提取 venue *country*, city。例如,我搜索“EEE 图像处理计算智能研讨会”。我正在使用谷歌的自定义搜索 api。

我得到一个像这样的sn-p,

"snippet": "The Computer Security Foundations Symposium is an annual conference for 
researchers in ... It was created in 1988 as a workshop of the IEEE Computer 
Society Technical Committee on Security and ... CSF-26 was held at Tulane 
University, New Orleans, LA, June 26-28, 2013. ... CSFW-19 program and 5-
minute talks.", 

我如何从回复中提取“杜兰大学,新奥尔良”....请注意,有多个结果,但假设我只选择第一个包含此内容的结果..

【问题讨论】:

    标签: java google-search-api


    【解决方案1】:

    这很困难,因为您正在处理自然语言。有几种可能性。这真的取决于输入。

    1. 您可以尝试使用模板/正则表达式找到这些。如果您知道场地是由“举办地点”或“组织地点”等介绍的,您可以使用该信息来提取场地/地点。

    2. 您可以使用 POS/NE Tagger 来标记单词。使用 Standford CoreNLP Pipeline 产生(缩短,仅使用相关句子和信息):

      CSF-26 NN O 是VBD O 举行VBN O 在 IN O 杜兰 NNP 组织 大学 NNP 组织 新的 NNP 位置 奥尔良 NNP 位置 局域网络位置 六月 NNP 日期 26-28 CD 日期 2013年CD日期

      单词后面是POS标签,后面是NE实体标签。 O 代表“其他”,其余的应该是不言自明的。然后,您可以查找 LOCATION 和周围的 LOCATION 或 ORGANIZATION。

    3. 您可以使用地名数据库查找 COUNTRY/CITY,然后查看 x 周围的单词。如果您还可以提供常用“地点”名称的列表,您可以将其包括在内以进一步改善结果。此步骤也可以集成到任何其他方法中。


    此列表并不详尽。它很大程度上取决于输入的方差。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-07-05
      • 2021-09-27
      • 2016-07-16
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多