将城市名称映射到国家 - python？

【问题标题】：Map city names to countries - python?将城市名称映射到国家 - python？
【发布时间】：2020-12-03 22:31:07
【问题描述】：

我有一个代表某些人位置的数据框。

此数据框未清理，名称一团糟。有些行只有国家名称，有些行有名称和城市，还有一些只有城市。我也有不是英文的句子。

如何使用 python 和 NLP 来整理这个数据集并获得同质数据集？

这是数据集的屏幕截图：

提前致谢

【问题讨论】：

标签： python nlp data-science data-extraction

【解决方案1】：

我无法发表评论，但你不清楚你想从这个系列中提取什么？如果您只是想找到“命名位置”的每个实例并从中制作新系列，那么您可能正在寻找Named Entity Recognition (NER)。 NLTK 是开始使用 NER 的好地方，他们有 a pretty good tutorial 关于如何使用它来获取特定类型的命名实体（请参阅第 5 节，命名实体识别）。

简而言之，我会从类似的东西开始

import nltk
ser = #<your series of strings>
locations = df.apply(lambda x:nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(str(x)))))

但是NLP是一项复杂的任务，而as has been discussed，NER尤其困难。

【讨论】：