【发布时间】:2021-09-11 01:10:51
【问题描述】:
我正准备通过 Mallet 进行主题建模,并已完成提取原始数据集。当然,在导入并开始建模之前,我需要采取一些步骤来清理和简化文本。我已经准备好停用词列表,并且我知道我可以使用 Excel 轻松删除标点符号、数字等。我有点模糊的是词干化和词形还原。不是概念本身,而是最好的方法是什么。
为了提供更好的概述,这是我想做的:
- 标准化拼写不一致,例如主题建模 -> 主题建模
- 从单词中删除多余的空格,例如连续两个空格
- 词干和词形还原
根据经验,任何人都可以推荐这三种方法的最佳方法,尤其是最后一种方法吗?有没有我可以使用的应用程序?
非常感谢!
【问题讨论】:
标签: lda topic-modeling stemming lemmatization mallet