【发布时间】:2016-04-13 11:30:40
【问题描述】:
我有一个字符串列表(名词短语),我想从中过滤掉所有有效的地理位置。其中大多数(不需要的位置名称)是国家或城市或州名。有什么方法可以做到这一点?是否有任何可用的包含世界所有国家、州、城市的开源查找表?
示例所需的输出: TREC4:假,维也纳:真,部委:假,IBM:假, 蒙特利尔: true, 新加坡: true
不同于这篇文章:Verify user input location string is a valid geographic location? 我有大量这样的字符串(约 70 万),所以 google geolocation API 可能不适合我。
【问题讨论】:
-
怎么样:来自opennlp.sourceforge.net/models-1.5或类似stackoverflow.com/questions/18371092/…的en-ner-location.bin
-
我使用了NLTK ner识别。 stanford ner tagger 看起来不错,我试试看..
标签: geolocation nlp gis text-mining data-science