【发布时间】:2016-05-20 14:52:33
【问题描述】:
我想给我发短信,出于多种原因,我构建了一个数据框,在第二个示例中,我在一列中有单词和频率:
words freq
Have 123
have 5
having 4589
请注意,我们可以快速查看频率是否非常大,这样做对于转换单词可能比让某些单词重复多次的语料库更有效。
我想使用tm 来转换使用tolower、stemDocument 等的单词
我知道我可以将 words 列从数据框中拉出到语料库中,但是我会丢失频率信息。
我想得到:
words freq
have 123
have 5
have 4589
然后我想我可以使用 setDT、dplyr 包或聚合来获取:
words freq
have 4717
我计划在大型数据框上执行此操作。谢谢
我确实尝试过模仿tm: read in data frame, keep text id's, construct DTM and join to other dataset
【问题讨论】: