使用 BERT 进行文本分类——如何处理拼写错误的单词答案

【问题标题】：Text classification using BERT - how to handle misspelled words使用 BERT 进行文本分类——如何处理拼写错误的单词
【发布时间】：2020-04-03 16:33:16
【问题描述】：

我不确定这是否是提交此类问题的最佳地点，也许 CrossValdation 会更好。

我正在研究一个文本多类分类问题。我基于在 PyTorch（huggingface 转换器库）中实现的 BERT 概念构建了一个模型。该模型表现得非常好，除非输入句子有 OCR 错误或拼写错误。

例如，如果输入是“NALIBU DRINK”，Bert 分词器会生成 ['na', '##lib', '##u', 'drink'] 并且模型的预测完全错误。另一方面，如果我纠正了第一个字符，所以我的输入是“MALIBU DRINK”，Bert 分词器会生成两个令牌 ['malibu', 'drink']，并且模型会以非常高的置信度做出正确的预测。

有什么方法可以增强 Bert 分词器，使其能够处理拼写错误的单词？

【问题讨论】：

标签： pytorch text-classification huggingface-transformers bert-language-model misspelling

【解决方案1】：

您可以利用 BERT 的强大功能来纠正拼写错误的单词。下面链接的文章用代码sn-ps精美地解释了这个过程 https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

总而言之，您可以通过 SpellChecker 功能识别拼写错误的单词并获得替换建议。然后，使用 BERT 找到最合适的替代品。

【讨论】：