【问题标题】:Map city names to countries - python?将城市名称映射到国家 - python?
【发布时间】:2020-12-03 22:31:07
【问题描述】:

我有一个代表某些人位置的数据框。

此数据框未清理,名称一团糟。有些行只有国家名称,有些行有名称和城市,还有一些只有城市。我也有不是英文的句子。

如何使用 python 和 NLP 来整理这个数据集并获得同质数据集?

这是数据集的屏幕截图:

提前致谢

【问题讨论】:

    标签: python nlp data-science data-extraction


    【解决方案1】:

    我无法发表评论,但你不清楚你想从这个系列中提取什么?如果您只是想找到“命名位置”的每个实例并从中制作新系列,那么您可能正在寻找Named Entity Recognition (NER)。 NLTK 是开始使用 NER 的好地方,他们有 a pretty good tutorial 关于如何使用它来获取特定类型的命名实体(请参阅第 5 节,命名实体识别)。

    简而言之,我会从类似的东西开始

    import nltk
    ser = #<your series of strings>
    locations = df.apply(lambda x:nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(str(x)))))
    

    但是NLP是一项复杂的任务,而as has been discussed,NER尤其困难。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-06-30
      • 1970-01-01
      • 2014-12-27
      • 2012-03-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多