用于构建聊天机器人的会话数据答案

【问题标题】：Conversational Data for building a chat bot用于构建聊天机器人的会话数据
【发布时间】：2020-03-17 00:44:40
【问题描述】：

我正在使用 rasa-nlu 构建一个聊天机器人。我完成了教程，并构建了一个简单的机器人。但是，我需要大量的训练数据来构建一个能够预订出租车的聊天机器人。所以我需要数据来构建一个特定的机器人。

是否有用于预订出租车的存储库或语料库？或者有没有办法生成这种数据集？

【问题讨论】：

标签： nlp chatbot rasa-nlu

【解决方案1】：

这是 Rasa 的一位创始人的博客文章，我认为它有一些非常好的建议。我认为您以错误的方式要求预先构建的训练集。自己开始，然后添加朋友等，直到您构建了最适合您的机器人的训练集。

Put on your robot costume

除了 Rasa 文档在improving model performance 下还有这个

当 rasa_nlu 服务器运行时，它会跟踪所有它做出的预测并将其保存到日志文件中。默认日志文件放在logs/.此目录中的文件包含一个每行的 json 对象。您可以修复任何不正确的预测并添加将它们添加到您的训练集以改进您的解析器。

我想您会惊讶于仅使用您自己想出的训练集就能走多远。

祝你找到语料库好运，但无论如何希望这些链接和 sn-ps 有所帮助。

【讨论】：

【解决方案2】：

一种方法是，前往LUIS.AI

使用 Office 365 登录，制作您自己的出租车预订应用程序，提供如下意图和表达：

现在在训练和发布模型后，下载如下语料库：

现在，下载语料库后，它看起来像这样：

安装RASA NLU，我的机器是Windows 8.1，所以步骤如下：

这些是配置 RASA 的步骤：

首次安装：用于安装 Python 3.6 解释器的 Anaconda 4.3.0 64 位 Windows：https://repo.continuum.io/archive/Anaconda3-4.3.0-Windows-x86_64.exe

适用于 Visual Studio 2015 的 Python 工具：https://ptvs.azureedge.net/download/PTVS%202.2.6%20VS%202015.msi

接下来，在命令提示符下以管理模式按此顺序安装以下软件包：

Spacy 机器学习包：pip install -U spacy
Spacy 英语语言模型：python -m spacy 下载 en
Scikit 包：pip install -U scikit-learn
用于数学计算的 Numpy 包：pip install -U numpy
Scipy 包：pip install -U scipy
用于意图识别的 Sklearn 包：pip install -U sklearn-crfsuite
NER Duckling 使用 Spacy 实现更好的实体识别：pip install -U duckling
RASA NLU：pip install -U rasa_nlu==0.10.4

以上所有包安装成功后，制作一个spaCy配置文件，供RASA读取，如下：

{
    "project": "Travel",
    "pipeline": "spacy_sklearn",
    "language": "en",
    "num_threads": 1,
    "max_training_processes": 1,
    "path": "C:\\Users\\Kunal\\Desktop\\RASA\\models",
    "response_log": "C:\\Users\\Kunal\\Desktop\\RASA\\log",
    "config": "C:\\Users\\Kunal\\Desktop\\RASA\\config_spacy.json",
    "log_level": "INFO",
    "port": 5000,
    "data": "C:\\Users\\Kunal\\Desktop\\RASA\\data\\FlightBotFinal.json",
    "emulate": "luis",
    "spacy_model_name": "en",
    "token": null,
    "cors_origins": ["*"],
    "aws_endpoint_url": null
  }

接下来，制作一个这样的目录结构：

数据文件夹 -> 将包含所有 LUIS 格式的语料库

模型 -> 将包含所有经过训练的模型

日志 -> 将包含主动学习日志和 RASA 框架日志

这样，

现在，为训练和启动 RASA NLU 服务器制作批处理文件脚本。

用记事本或 Visual Studio Code 制作一个 TrainRASA.bat 并写下：

 python -m rasa_nlu.train -c config_spacy.json
 pause

现在用记事本或 Visual Studio Code 制作一个 StartRASA.bat 并写下：

python -m rasa_nlu.server -c config_spacy.json
pause

现在通过单击您刚刚创建的批处理文件脚本来训练并启动 RASA 服务器。

现在，一切准备就绪，只需启动 chrome 并向您的 enpoint /parse 发出 HTTP GET 请求

点赞：http://localhost:5000/parse?q=&project=

您将获得与 Bot Framework C# 的 LUISResult 类对应的 JSON 响应。

现在处理您想要执行的业务逻辑。

或者，您可以查看 RASA Core，它主要是为此目的而构建的。

RASA Core, which uses machine learning to build dialogs instead of simple if-else statements.

【讨论】：

【解决方案3】：

以下链接包含与商业聊天机器人应用程序（“人机”对话）相关的数据集。它是一个相当全面的人机和人机文本对话数据集以及音频对话数据集的集合。 https://breakend.github.io/DialogDatasets/

【讨论】：

【解决方案4】：

我们确实遇到了同样的问题while trying to build a love relationship coach bot。长话短说，我们决定创建一个简单的工具来收集来自我们的朋友、同事或 Mechanical Turk 上的人的数据：https://chatbotstrap.io。

我们的想法是创建这样的民意调查：https://chatbotstrap.io/en/project/q5pimyskbhna2rm?language=en&nb_scenarios=10 并将它们发送给您认识的任何人。借助该解决方案，我们能够在几天内构建一个包含 6000 多个句子的数据集，分为 10 个意图。

只要您同意使用它构建的数据集可以开源，该工具是免费的。如果您希望成为所收集数据的唯一受益人，它们也是付费计划。

【讨论】：