【发布时间】:2017-03-12 04:25:17
【问题描述】:
我正在使用 python 执行文本分析任务。在这里,我使用 NLTK 进行文本处理任务。我有一组预定义的biwords,如下所述。
arr = ['Animo Text Analytics Inc.', 'Amila Iddamalgoda']
我也有一个类似下面的句子。
sentence = "Amila Iddamalgoda is currently working for Animo Text Analytics Inc. and currently following the Text Mining and Analytics course provided by coursera."
现在我用NLTK 标记了这个。
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(sentence)
这给出了单个单词标记(显然)。但是,我需要匹配我拥有的预定义的双字集(在开头提到)并将该双字短语作为单个标记。
例如:Amila Iddamalgoda,目前正在工作,Animo Text Analytics Inc.,以下...
我怎样才能做到这一点?请帮帮我
【问题讨论】: