【问题标题】:Is it possible to use Feature Learning for Binary Text Classification?是否可以将特征学习用于二进制文本分类?
【发布时间】:2016-08-31 02:17:40
【问题描述】:
我目前正在使用 CHILDES 语料库,试图创建一个分类器,将患有特定语言障碍 (SLI) 的儿童与正常发育 (TD) 的儿童区分开来。
在我的阅读中,我注意到确实没有一组令人信服的特征来区分已经发现的两者,因此我萌生了一个疯狂的想法,即尝试创建一个可能会产生更好的特征学习算法.
这可能吗?如果是这样,你建议我如何处理这个?从我所做的阅读来看,大多数特征学习都是在图像处理上完成的。另一个问题是我拥有的数据集可能太小而无法正常工作(在 100 中),除非我找到一种方法从孩子那里获取更多的成绩单。
【问题讨论】:
标签:
machine-learning
nlp
deep-learning
【解决方案1】:
创建一个由具有三个标签的子文本组成的数据集:
1- 正常
2- SLI
3- TD
所以你将有 3 个标签。
您将 40% 的数据集留出,20% 用于开发,20% 用于测试。
然后,您使用字符 n-gram 特征包运行 LogisticRegression 分类器(例如使用 scikit-learn)。您可以通过 scikit-learn 中的 TfidfVectorizer 轻松完成此操作。
然后,您在 60% 的训练集上训练模型,并通过选择性能最佳的开发模型来调整超参数(例如正则化强度)。
然后,您使用所选的超参数再次进行训练,您将获得最重要的特征,如 example 中所示。
对于每个类别,它会为您提供与每个标签相关联的特征的权重,以便您了解两种疾病的主要语言症状。