文本分类任务的训练样本数答案

【问题标题】：Number of training samples for text classification tas文本分类任务的训练样本数
【发布时间】：2018-06-26 12:01:06
【问题描述】：

假设您在客户和人工代理之间有一组转录的客户服务电话，平均每个电话的长度为 7 分钟。客户大多会因为产品问题而打电话。假设人类每次调用可以为每个轴分配一个标签：

基于手动标记的文本，您要训练一个文本分类器，该分类器应为三个轴中的每一个的每个调用预测一个标签。但是录音的标签需要时间和金钱。另一方面，您需要一定数量的训练数据才能获得良好的预测结果。

鉴于上述假设，您将从多少个手动标记的训练文本开始？你怎么知道你需要更多带标签的训练文本？

也许你以前做过类似的任务，可以提供一些建议。

更新（2018-01-19）：我的问题没有正确或错误的答案。好的，理想情况下，有人从事完全相同的任务，但这不太可能。我将把这个问题再搁置一周，然后接受最佳答案。

【问题讨论】：

【解决方案1】：

这很难回答，但我会根据我的经验尽力而为。

过去，我对 3 个数据集进行了文本分类；括号中的数字表示我的数据集有多大：餐厅评论（50K 句子）、reddit cmets（250k 句子）和来自问题的开发者 cmets跟踪系统（10k 句）。他们每个人也有多个标签。

在这三个案例中，包括一万个句子的案例，我的 F1 分数都超过了 80%。我特别强调这个数据集，因为有人告诉我这个数据集的大小更小。

因此，就您而言，假设您有至少 1000 个实例（包括客户和代理之间的对话），平均 7 分钟通话，这应该是一个不错的开始。如果结果不满意，您有以下选择：

1) 使用不同的模型（MNB、随机森林、决策树等，除了您使用的任何模型）

2）如果第 1 点给出或多或少相似的结果，请检查您拥有的所有类的实例的比率（您在这里谈论的 3 轴）。如果他们的比率不高，请获取更多数据，如果无法获取更多数据，请尝试不同的balancing techniques。

3) 另一种方法是在句子级别而不是消息或对话级别对它们进行分类，以便为句子而不是消息或对话本身生成更多数据和单独的标签。

【讨论】：