【问题标题】:Number of training samples for text classification tas文本分类任务的训练样本数
【发布时间】:2018-06-26 12:01:06
【问题描述】:

假设您在客户和人工代理之间有一组转录的客户服务电话,平均每个电话的长度为 7 分钟。客户大多会因为产品问题而打电话。假设人类每次调用可以为每个轴分配一个标签:

  • 轴 1:从客户的角度来看问题是什么?
  • 轴 2:从代理的角度来看问题是什么?
  • 轴 3:代理能否解决客户的问题?

基于手动标记的文本,您要训练一个文本分类器,该分类器应为三个轴中的每一个的每个调用预测一个标签。但是录音的标签需要时间和金钱。另一方面,您需要一定数量的训练数据才能获得良好的预测结果。

鉴于上述假设,您将从多少个手动标记的训练文本开始?你怎么知道你需要更多带标签的训练文本?

也许你以前做过类似的任务,可以提供一些建议。

更新(2018-01-19):我的问题没有正确或错误的答案。好的,理想情况下,有人从事完全相同的任务,但这不太可能。我将把这个问题再搁置一周,然后接受最佳答案。

【问题讨论】:

    标签: nlp text-classification spacy


    【解决方案1】:

    这很难回答,但我会根据我的经验尽力而为。

    过去,我对 3 个数据集进行了文本分类;括号中的数字表示我的数据集有多大:餐厅评论(50K 句子)、reddit cmets(250k 句子)来自问题的开发者 cmets跟踪系统(10k 句)。他们每个人也有多个标签。

    在这三个案例中,包括一万个句子的案例,我的 F1 分数都超过了 80%。我特别强调这个数据集,因为有人告诉我这个数据集的大小更小。

    因此,就您而言,假设您有至少 1000 个实例(包括客户和代理之间的对话),平均 7 分钟通话,这应该是一个不错的开始。如果结果不满意,您有以下选择:

    1) 使用不同的模型(MNB、随机森林、决策树等,除了您使用的任何模型)

    2)如果第 1 点给出或多或少相似的结果,请检查您拥有的所有类的实例的比率(您在这里谈论的 3 轴)。如果他们的比率不高,请获取更多数据,如果无法获取更多数据,请尝试不同的balancing techniques

    3) 另一种方法是在句子级别而不是消息或对话级别对它们进行分类,以便为句子而不是消息或对话本身生成更多数据和单独的标签。

    【讨论】:

      猜你喜欢
      • 2021-07-03
      • 1970-01-01
      • 2020-10-05
      • 2016-10-06
      • 1970-01-01
      • 2013-04-19
      • 1970-01-01
      • 2016-01-25
      • 2015-06-17
      相关资源
      最近更新 更多