【发布时间】:2021-10-19 23:44:56
【问题描述】:
要执行 NLP 任务,例如来自 KAGGLE 的“预测哪些推文是关于真正的灾难,哪些不是”,链接:https://www.kaggle.com/c/nlp-getting-started
我应该执行哪个任务来规范化我的文本,词形还原或词干提取?
谢谢!
【问题讨论】:
标签: text nlp normalization kaggle
要执行 NLP 任务,例如来自 KAGGLE 的“预测哪些推文是关于真正的灾难,哪些不是”,链接:https://www.kaggle.com/c/nlp-getting-started
我应该执行哪个任务来规范化我的文本,词形还原或词干提取?
谢谢!
【问题讨论】:
标签: text nlp normalization kaggle
这取决于你想做什么。
词形还原是语言学的动机,通常更可靠地在将屈折词还原为其基本形式时给出正确的结果。但是,它更耗费资源。
词干(通常)是一个简短的过程,它使用字符串匹配来删除字符串的一部分。这要快得多,不需要词典,但结果并不准确。
输出也有区别:Lemmatisation保留了基类,所以revolved变成revolve,revolution保持不变(它已经是基本形式)。在某些词干提取算法中,派生后缀 (-tion) 也被删除,因此上述所有内容都可能以 revol 结尾。这可能是您想要的,因为它返回类似于“词干”或基本语素的内容。
【讨论】: