特殊字符训练 NLP 模型答案

【问题标题】：Special characters training NLP models特殊字符训练 NLP 模型
【发布时间】：2019-05-21 15:06:07
【问题描述】：

我刚开始在机器人中使用 NLP，用户提出一个由 LUIS 分类的问题，然后转发给 QnAMaker 以获得答案，我注意到它在西班牙语中的行为很奇怪，因为我们有重音字符和双重问题分数（？）。例如：

[1] ¿qué es NLP?
[2] que es NLP

如果我用第一个训练我的模型并用第二个测试它，该模型将不会以相同的意图识别它们。这是用西班牙语交流的一种非常常见的方式，因为有些人倾向于通过避免使用重音字符和标点符号来节省时间。

我的问题是：

【问题讨论】：

【解决方案1】：

我是否应该规范化模型中的每个话语（去除重音、标点符号等）？或者我应该用每个不同的例子来训练它？

这实际上取决于您想要什么，但为了不必重复大量工作，最好将模型中的每个话语标准化。

然后你可以在你的机器人级别上做的就是去掉带有重音符号或被认为是“特殊”的字符/用规范化字符替换，然后将话语发送到 LUIS 以预测意图

【讨论】：