【发布时间】:2020-02-14 05:26:57
【问题描述】:
我正在尝试在 tidytext 中进行 ngram 分析,我有一个包含 770 个演讲的语料库。但是 tidytext 中的函数 unnest_tokens 将数据框作为输入。当我检查示例(简奥斯汀书籍)时,书中的每一行都作为行存储在数据框中。我无法将语料库转换为数据帧,既不能一次用于一个语音,也不能一次用于所有语料库。
我可以使用我的语料库上的非嵌套标记对 tidytext 运行 ngrams(n=2,3 等)分析的方式是什么。有人可以建议吗?
谢谢
【问题讨论】:
-
请创建一个reproducible example 和预期的输出。但对我来说,这听起来好像你只需要使用 quanteda 而不是 tidytext。