【发布时间】:2019-12-03 00:27:32
【问题描述】:
假设我们有一个来自 10K 个相当小的文档的语料库的 tf-idf 加权 dfm。
quanteda 提取顶部特征的方法是什么,即文档的最大 tf-idf 值?
在计算 tf-idf 时,我确实希望整个语料库成为参考。类似于
topfeatures(some_dfm_tf_idf, n =3, decreasing = TRUE, groups ="id")
返回一个合适的列表。然而,在这一点上基本上已经整理出来的东西需要相当长的时间。鉴于 quanteda 在我迄今为止所做的一切中都表现得如此出色,我怀疑我在这里可能做错了什么。
也许这与 github (https://github.com/quanteda/quanteda/issues/1646) 上的讨论和@Astelix 显示的示例解决方法有些相关。
【问题讨论】: