【问题标题】:Text classification using BERT - how to handle misspelled words使用 BERT 进行文本分类——如何处理拼写错误的单词
【发布时间】:2020-04-03 16:33:16
【问题描述】:

我不确定这是否是提交此类问题的最佳地点,也许 CrossValdation 会更好。

我正在研究一个文本多类分类问题。 我基于在 PyTorch(huggingface 转换器库)中实现的 BERT 概念构建了一个模型。该模型表现得非常好,除非输入句子有 OCR 错误或拼写错误。

例如,如果输入是“NALIBU DRINK”,Bert 分词器会生成 ['na', '##lib', '##u', 'drink'] 并且模型的预测完全错误。另一方面,如果我纠正了第一个字符,所以我的输入是“MALIBU DRINK”,Bert 分词器会生成两个令牌 ['malibu', 'drink'],并且模型会以非常高的置信度做出正确的预测。

有什么方法可以增强 Bert 分词器,使其能够处理拼写错误的单词?

【问题讨论】:

    标签: pytorch text-classification huggingface-transformers bert-language-model misspelling


    【解决方案1】:

    您可以利用 BERT 的强大功能来纠正拼写错误的单词。 下面链接的文章用代码sn-ps精美地解释了这个过程 https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

    总而言之,您可以通过 SpellChecker 功能识别拼写错误的单词并获得替换建议。然后,使用 BERT 找到最合适的替代品。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-02-26
      • 2021-11-13
      • 1970-01-01
      • 2020-12-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多