【问题标题】:Deep learning for chatbot training用于聊天机器人训练的深度学习
【发布时间】:2017-02-14 11:55:52
【问题描述】:

我们正在尝试为客户服务创建一个智能聊天机器人。我们有一个客户服务问题和答案的语料库,每个对话都有一个标记的意图。我们正在探索使用深度学习来训练我们的模型,但我们遇到了几个问题:

1 - 如何进行特征工程以在文本数据上训练模型。具体来说,如何将语言转化为向量?
2 - 如何使用非单词特征作为意图识别深度学习分类器的输入?你如何适应例如客户产品名称? 3 - 如何为带有文本输入的深度学习选择神经网络架构? 4 - 我们如何处理没有足够数据的情况?使用贝叶斯技术?

【问题讨论】:

  • 您可以在这里提问以获得更多答案:stats.stackexchange.com。您将需要进行自然语言处理 (NLP),网上有很多示例。尝试谷歌搜索“NLP 特征提取”。祝你好运!
  • 您提出的问题本身就是整个过程。你需要学习 NLP。如果从头开始创建模型不是强制性的,那么我建议您使用 Google 的 API 进行聊天机器人开发,称为 Dialogflow。 Dialogflow 是一个平台,您可以在其中轻松开发聊天机器人,只需单击几下,您就可以将其集成到任何地方(网站、Facebook、slack 甚至在谷歌助手等)。去吧。

标签: networking deep-learning chatbot


【解决方案1】:

酷..伟大的开始!!.

在您开始实施之前,我建议您先学习一些基础知识。

无论如何,这里是您问题的答案。 !!

特征工程:顾名思义,在您的数据中有些东西可能会降低模型的准确性。像混合了小写和大写字符的单词,数字,特殊字符,行以一些特殊字符结尾..等。经过特征工程后,它可以提供更高的准确性!但同样需要这一切都取决于您拥有什么类型的数据!

language into vectors :任何类型的语言,最后是文本(在您的情况下)。我们可以给单词或字符向量表示。这种向量表示可以通过一个热向量或使用预先构建的方法(如 word2vec 或 glove)来获得。

一个热向量:假设您的训练数据集中有 100 个单词。然后为每个单词创建 k 维向量。其中 k 是单词的总数。按字符位置排序单词。并基于三个排序顺序创建向量,保持索引位置为 1,其余为 0。

ex: [1 0 0 0 0 ....] - word1
    [0 1 0 0 0 ....] - word2
    [0 0 0 0 0 ...1] - word100

非单词特征:遵循与单词特征相同的规则 客户产品名称:- 创建一个热矢量,因为它们通常不用于文本。而且它们在现实生活中没有意义。

如何选择 NN :- 这取决于您想要实现的目标。 NN 可以以多种方式用于多种用途。

没有足够的数据:- 这又取决于您的数据。 !!如果您的数据具有更常见的模式,并且在未来的数据中,这些模式也会出现!那么使用NN还是可以的。否则我不建议使用NN。

祝你好运!!

【讨论】:

    【解决方案2】:

    Achyuta nanda sahoo 对先前答案的一些补充。 (根据你的问题编号)

    1. 正如他所说,使用一些预训练的词嵌入层(Fasttext、word2vec) 你可以找到预训练模型,例如这里:

    https://github.com/facebookresearch/fastText/blob/master/docs/pretrained-vectors.md

    1. 您可以使用命名实体识别特别找到客户产品名称。你可以例如从以下 repo 开始

    https://github.com/guillaumegenthial/tf_ner

    1. 你可以从一些根据余弦相似度的简单问答匹配开始,如下所示:

    https://github.com/sachinbiradar9/Question-Answer-Selection

    1. 即使您最初没有足够的数据,您也可以通过对来自类似问答数据分布的庞大数据集进行预训练,从深度神经网络开始。应该有大量的网站,您可以在其中找到这些准备好抓取的问答场景:-)

    最好的

    【讨论】:

      猜你喜欢
      • 2019-12-30
      • 2017-06-12
      • 2020-06-26
      • 2019-10-20
      • 2018-01-09
      • 1970-01-01
      • 2020-11-24
      • 2022-06-13
      • 2021-05-05
      相关资源
      最近更新 更多