【发布时间】:2020-12-03 22:31:07
【问题描述】:
我有一个代表某些人位置的数据框。
此数据框未清理,名称一团糟。有些行只有国家名称,有些行有名称和城市,还有一些只有城市。我也有不是英文的句子。
如何使用 python 和 NLP 来整理这个数据集并获得同质数据集?
提前致谢
【问题讨论】:
标签: python nlp data-science data-extraction
我有一个代表某些人位置的数据框。
此数据框未清理,名称一团糟。有些行只有国家名称,有些行有名称和城市,还有一些只有城市。我也有不是英文的句子。
如何使用 python 和 NLP 来整理这个数据集并获得同质数据集?
提前致谢
【问题讨论】:
标签: python nlp data-science data-extraction
我无法发表评论,但你不清楚你想从这个系列中提取什么?如果您只是想找到“命名位置”的每个实例并从中制作新系列,那么您可能正在寻找Named Entity Recognition (NER)。 NLTK 是开始使用 NER 的好地方,他们有 a pretty good tutorial 关于如何使用它来获取特定类型的命名实体(请参阅第 5 节,命名实体识别)。
简而言之,我会从类似的东西开始
import nltk
ser = #<your series of strings>
locations = df.apply(lambda x:nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(str(x)))))
但是NLP是一项复杂的任务,而as has been discussed,NER尤其困难。
【讨论】: