词干和词形还原 - 什么方法？答案

【问题标题】：Stemming and lemmatizing - What approach?词干和词形还原 - 什么方法？
【发布时间】：2021-09-11 01:10:51
【问题描述】：

我正准备通过 Mallet 进行主题建模，并已完成提取原始数据集。当然，在导入并开始建模之前，我需要采取一些步骤来清理和简化文本。我已经准备好停用词列表，并且我知道我可以使用 Excel 轻松删除标点符号、数字等。我有点模糊的是词干化和词形还原。不是概念本身，而是最好的方法是什么。

为了提供更好的概述，这是我想做的：

根据经验，任何人都可以推荐这三种方法的最佳方法，尤其是最后一种方法吗？有没有我可以使用的应用程序？

非常感谢！

【问题讨论】：

【解决方案1】：

先看看没有这些干预会发生什么。

空格和标点符号通常不是问题，但您可能需要确保文本不包含制表符或换行符，因为这些会混淆数据导入功能。导入到注意引号的 excel 之类的文件中存在一个常见问题，如果引号不匹配，它可以将多行解释为单个文档。

词干提取、词形还原和拼写正则化的问题在于它们与主题模型本身具有相同的目标。它的目标是根据上下文组合语义上相似的单词，因此它实际上对你在英语中看到的那种变化没有问题。对于具有大量形态的其他语言，您可能需要更高级的东西。但在大多数情况下，您实际上只是让模型的工作变得更加困难。

使用词干分析器的一种方法是在建模之后进行词干。人们通常认为他们需要词干分析器，因为他们在模型输出中看到了一个单词的多个小的变体。我认为这是模型正在运行的标志，但我可以看到它可能不是最好的界面。在这种情况下，您可能会注意到某些词映射到同一个词干，并且只显示最常用词的原始形式。

根据我的经验，您可以采取的最有效干预措施是清理输入中的问题（例如 hyphen- ated 单词）并将重要的多单词术语转换为单个术语（例如 topic modeling 到 topic_modeling）。

【讨论】：

嗨大卫！谢谢您的回答。为了提供一些背景信息，我的文本数据是 Youtube cmets。通常，您会在其中找到很多表情符号/表情符号，因此清理确实有帮助，即使它更多地是为了我的个人概述而不是模型本身。我的文本语言是德语，所以词形还原确实有助于我们拥有许多变化。我一直在阅读有关使用 spaCy 和 NLTK 进行词形还原的文章。据我了解，我需要先安装 Gensim Wrapper for Mallet 才能将它们中的任何一个加载到 Mallet 中。这是正确的还是他们在独立的环境中工作？
（第一个评论中的字符用完了）另外，您建议清理连字符的单词并转换多词术语。后者对我来说特别有趣。有没有办法在 Mallet 中做到这一点，或者你可以推荐一个额外的包吗？非常感谢！