【发布时间】:2019-09-18 13:40:27
【问题描述】:
按照线程How to apply pos_tag_sents() to pandas dataframe efficiently 的建议,我运行代码来识别我的一个变量中文本的不同位置。
现在我设法创建了感兴趣的列 - sub['POS'] - 我如何提取我的相关信息 - 所有 NN - 并为每个列创建一个列?
print(sub['POS'])
5 [(e-mail, JJ), (new, JJ), (delhi, NN), ((, (),...
4 [(bangladesh, JJ), (garment, NN), (unions, NNS...
41 [(listen, VB), (blaze, NN), (wrecks, NNS), (te...
10 [(11:49, CD), (am, VBP), (,, ,), (september, V...
17 [(listen, JJ), (two, CD), (events, NNS), (plan...
作为输出,我想要一个新列(此处为“NN”),其中包含每行的所有 NN。
df = pd.DataFrame(["delhi",
"garment" ,
"blaze",
NaN], columns=['NN'])
【问题讨论】:
-
能否提供一个预期输出的样本?
-
我添加了我想要的输出 - 一个新列,其中每一行包含 sub['POS'] 系列的所有 NN。
标签: python pandas nltk part-of-speech