【发布时间】:2020-12-09 09:28:49
【问题描述】:
具体来说,我需要统计每个文档中每个元音的频率:e 和 i 为“高”元音; a、o 和 u 作为“低”元音。
有没有办法计算 R 中 quanteda 语料库中每个文档中某些字母的频率?
到目前为止,我只遇到过对单词或句子级别进行操作的函数,例如token_select() 或ntoken()。
欢迎任何帮助。我考虑了一个正则表达式模式,但我不确定如何将它应用于 Quanteda 语料库中的每个单独文档并从中获取计数。
这是一个可以玩的最小工作示例:
require(quanteda)
text1 <- "This is some gibberish for you."
text2 <- "Some more gibberish. Enjoy!"
text3 <- "Gibber, gibber, gibber away."
corp <- rbind(text1, text2, text3) %>%
quanteda::corpus()
【问题讨论】:
标签: r data-science quanteda