【问题标题】:which machine learning technique should be used for message classification应该使用哪种机器学习技术进行消息分类
【发布时间】:2016-12-16 16:35:56
【问题描述】:

我有一个包含客户信息的数据集,最终类别之一是以下示例-

key   message                                                  final category
1     i want customer care no i want to talk with ur team       other
2     hi I 9986443603cjhh had qkuiv1uhqllljqvocally q illgi vq  noclass
3     hai points not coming                                     checking

喜欢。数据集是一个巨大的文件,至少有 20 个最终类别类型。请提出适当的方法来对数据进行分类,并带有一条消息,这将是它的最终类别。我正在考虑用消息词制作 feature_vector 并将其输入贝叶斯会不会很棒?或者我必须使用其他技术。

非常感谢。

【问题讨论】:

    标签: machine-learning scikit-learn classification bayesian


    【解决方案1】:

    你可以考虑词嵌入。 您可以从here 下载嵌入(在此链接中-Glove,您也可以使用word2vec)。

    这个想法是相似的词会有相似的向量。 将消息中的每个单词转换为向量后,您可以对所有向量进行平均(或者,使用 TF-IDF 进行平均以获得更好的结果)以获得消息的向量表示。 当然,像 qkuiv1uhqllljqvocally 这样的词不会出现在词汇表中。 要检查您的结果,您可以对所有向量进行聚类(使用 20 均值聚类,如果您有 20 个类),以查看相似的消息聚类到同一组。

    【讨论】:

      猜你喜欢
      • 2015-01-16
      • 2018-10-23
      • 2016-02-24
      • 2010-10-07
      • 2020-06-13
      • 2011-07-23
      • 1970-01-01
      • 1970-01-01
      • 2013-11-07
      相关资源
      最近更新 更多