【发布时间】:2018-06-26 12:01:06
【问题描述】:
假设您在客户和人工代理之间有一组转录的客户服务电话,平均每个电话的长度为 7 分钟。客户大多会因为产品问题而打电话。假设人类每次调用可以为每个轴分配一个标签:
- 轴 1:从客户的角度来看问题是什么?
- 轴 2:从代理的角度来看问题是什么?
- 轴 3:代理能否解决客户的问题?
基于手动标记的文本,您要训练一个文本分类器,该分类器应为三个轴中的每一个的每个调用预测一个标签。但是录音的标签需要时间和金钱。另一方面,您需要一定数量的训练数据才能获得良好的预测结果。
鉴于上述假设,您将从多少个手动标记的训练文本开始?你怎么知道你需要更多带标签的训练文本?
也许你以前做过类似的任务,可以提供一些建议。
更新(2018-01-19):我的问题没有正确或错误的答案。好的,理想情况下,有人从事完全相同的任务,但这不太可能。我将把这个问题再搁置一周,然后接受最佳答案。
【问题讨论】:
标签: nlp text-classification spacy