【发布时间】:2019-05-21 15:06:07
【问题描述】:
我刚开始在机器人中使用 NLP,用户提出一个由 LUIS 分类的问题,然后转发给 QnAMaker 以获得答案,我注意到它在西班牙语中的行为很奇怪,因为我们有重音字符和双重问题分数 (?)。例如:
[1] ¿qué es NLP?
[2] que es NLP
如果我用第一个训练我的模型并用第二个测试它,该模型将不会以相同的意图识别它们。这是用西班牙语交流的一种非常常见的方式,因为有些人倾向于通过避免使用重音字符和标点符号来节省时间。
我的问题是:
- 我是否应该规范化模型中的每个话语(去除重音、 标点符号等)?还是我应该用每个不同的例子来训练它?
- 是否有任何用于训练 NLP 模型的指导方针,我可以以此为依据?
【问题讨论】:
标签: nlp azure-language-understanding qnamaker