【发布时间】:2019-02-18 11:40:12
【问题描述】:
我有一个关于将文本分类为几个类别(主题)的问题。除了文本之外,我还有一些我认为可能有用的数字特征(这些特征中也有缺失值)。但是,最重要的信息当然是在文本中提供的。因此,我认为深度学习方法(使用通用管道:嵌入层 + CNN 或带有 dropout + Dense 层的 RNN)将是最佳选择。将仅适用于文本输入的当前模型与数字特征混合的最佳做法是什么?在这个领域是否有任何技巧、最佳常见做法、最先进的研究?有没有关于这个主题的论文/实验(可能在 GitHub 上)?
如果我们能概括地思考问题就好了,但是为了了解我们可以解决什么样的问题,我将举一个具体的例子。假设我们有来自用户的评论,他们描述了他们在接受服务或购买商品时遇到的问题。目标特征是多标签:与用户投诉相关联的一组标签(类别/主题)(我们应该在数百个可能的主题中选择相关的)。
然后除了用户评论本身(这是最重要的特征)之外,我们可能还想考虑一些数字特征,如价格、等待时间、评级(客户满意度得分)等。这可能很有用用于预测某些特定类别。
我们的想法是以某种方式在深度学习模型中混合所有这些特征以生成最终模型。不确定我是否知道如何做到这一点的最佳方法。解决此类问题的最佳做法/有用的技巧是什么?
【问题讨论】:
标签: deep-learning text-mining feature-engineering natural-language-processing