【发布时间】:2020-08-14 14:38:12
【问题描述】:
我有一个 pandas 数据框,其中一列中有词形还原的文本。
我想计算两个给定单词在同一个句子中一起出现的频率,并计算这些单词在文档中一起出现的次数。例如给定“I”和“have”,计算文档中“I”和“have”在同一个句子中同时出现的次数。
理想情况下,我想创建一个新的 DataFrame,其结果在一列中我将两个单词放在一起,在另一列中两个单词一起出现在一个句子中,在第三列中显示原始文本。
我的结果需要类似于:
text, given_words, frequency_in_sentence
text1 | "I have " | 2 times in same sentence
text2 | "I have " | 3 times in same sentence
text3 | "I have " | 1 times in same sentence
【问题讨论】:
-
请查看 [Minimal Reproducible Example] (stackoverflow.com/help/minimal-reproducible-example),它将帮助您以一种更容易让其他人帮助您的方式表达问题。
标签: python nlp nltk token spacy