是否可以将特征学习用于二进制文本分类？答案

【问题标题】：Is it possible to use Feature Learning for Binary Text Classification?是否可以将特征学习用于二进制文本分类？
【发布时间】：2016-08-31 02:17:40
【问题描述】：

我目前正在使用 CHILDES 语料库，试图创建一个分类器，将患有特定语言障碍 (SLI) 的儿童与正常发育 (TD) 的儿童区分开来。

在我的阅读中，我注意到确实没有一组令人信服的特征来区分已经发现的两者，因此我萌生了一个疯狂的想法，即尝试创建一个可能会产生更好的特征学习算法.

这可能吗？如果是这样，你建议我如何处理这个？从我所做的阅读来看，大多数特征学习都是在图像处理上完成的。另一个问题是我拥有的数据集可能太小而无法正常工作（在 100 中），除非我找到一种方法从孩子那里获取更多的成绩单。

【问题讨论】：

【解决方案1】：

创建一个由具有三个标签的子文本组成的数据集： 1- 正常 2- SLI 3- TD

所以你将有 3 个标签。

您将 40% 的数据集留出，20% 用于开发，20% 用于测试。

然后，您使用字符 n-gram 特征包运行 LogisticRegression 分类器（例如使用 scikit-learn）。您可以通过 scikit-learn 中的 TfidfVectorizer 轻松完成此操作。

然后，您在 60% 的训练集上训练模型，并通过选择性能最佳的开发模型来调整超参数（例如正则化强度）。

然后，您使用所选的超参数再次进行训练，您将获得最重要的特征，如 example 中所示。

对于每个类别，它会为您提供与每个标签相关联的特征的权重，以便您了解两种疾病的主要语言症状。

【讨论】：