【发布时间】:2021-08-20 23:55:11
【问题描述】:
我有一个使用“tm”包在 R 中创建的文档术语矩阵“mydtm”。我试图描述 dtm/corpus 中包含的 557 个文档之间的相似之处。我一直在尝试使用余弦相似度矩阵: mydtm_cosine Output Matrix
【问题讨论】:
-
您是否尝试过删除停用词、词干以减少词性的数量?文件很短吗?如果它们不同时出现,则无法定义相似性。
-
@CSJCampbell 是的,我已经进行了词干提取、数字删除、空白等操作。
标签: r text-mining tm