【问题标题】:Is it possible to use Feature Learning for Binary Text Classification?是否可以将特征学习用于二进制文本分类?
【发布时间】:2016-08-31 02:17:40
【问题描述】:

我目前正在使用 CHILDES 语料库,试图创建一个分类器,将患有特定语言障碍 (SLI) 的儿童与正常发育 (TD) 的儿童区分开来。

在我的阅读中,我注意到确实没有一组令人信服的特征来区分已经发现的两者,因此我萌生了一个疯狂的想法,即尝试创建一个可能会产生更好的特征学习算法.

这可能吗?如果是这样,你建议我如何处理这个?从我所做的阅读来看,大多数特征学习都是在图像处理上完成的。另一个问题是我拥有的数据集可能太小而无法正常工作(在 100 中),除非我找到一种方法从孩子那里获取更多的成绩单。

【问题讨论】:

    标签: machine-learning nlp deep-learning


    【解决方案1】:

    创建一个由具有三个标签的子文本组成的数据集: 1- 正常 2- SLI 3- TD

    所以你将有 3 个标签。

    您将 40% 的数据集留出,20% 用于开发,20% 用于测试。

    然后,您使用字符 n-gram 特征包运行 LogisticRegression 分类器(例如使用 scikit-learn)。您可以通过 scikit-learn 中的 TfidfVectorizer 轻松完成此操作。

    然后,您在 60% 的训练集上训练模型,并通过选择性能最佳的开发模型来调整超参数(例如正则化强度)。

    然后,您使用所选的超参数再次进行训练,您将获得最重要的特征,如 example 中所示。

    对于每个类别,它会为您提供与每个标签相关联的特征的权重,以便您了解两种疾病的主要语言症状。

    【讨论】:

      猜你喜欢
      • 2019-02-18
      • 2013-02-05
      • 1970-01-01
      • 2019-09-20
      • 2015-04-21
      • 2021-03-06
      • 2017-11-23
      • 2019-07-13
      • 1970-01-01
      相关资源
      最近更新 更多