【问题标题】:Can sentiment classification problem be resolved using regression?可以使用回归解决情感分类问题吗?
【发布时间】:2020-04-25 02:03:02
【问题描述】:

我有一个推文数据集,其中每条推文都有一个平均置信度得分。 例如
TweetAverage ConfidenceStandard Deviation

too much thoughts inside his headdd we can t even imagine0.30.163951

His ass need to stay up0.80.161962

First time I heard his name in camp, he seems amazing0.190.181962

平均置信度是多个监督模型预测的特定实例属于正类的置信度的平均值。

标准偏差是特定实例的置信度与平均置信度的标准偏差。

如果我认为它是一个回归任务,如何处理多标签数据

编辑

【问题讨论】:

  • 你的目标是什么?
  • 我想分类推文是否是正面的。但标签就像回归问题。所以我认为我应该进行回归,所以我可以判断未标记推文的信心是什么......但我很困惑
  • 还是不清楚你想做什么?你的多重标签是什么?以及您要如何以及为什么要将回归引入 NLP 模型(通常是神经网络)
  • 我附上了数据集的图片
  • 您似乎认为有一种方法可以通过调整模型及其参数来达到 100% 理解人类语言的准确率。这与事实相去甚远。情绪分类对个别话语仍然非常不精确。当您有足够多正确分类的话语以使它们的信号优于不精确分类的噪声时,这是有意义的。

标签: python regression classification text-classification


【解决方案1】:

还没有完全理解你的问题,所以按照我的想法回答:)

基本上 score(在您的情况下为 average)单独用于情感分析以对好坏句子(数据)进行分类,选择一个产生最佳分类结果的阈值,比如说 @ 987654323@所以

if score >= 0.6
  classify as GOOD
else
  classify as BAD

我建议看看这种简单的方法是否足以满足您的要求

如果您想使用更多变量(信息)进行分类,例如“averageandstd”,您可以使用其他分类模型(如logistic-regression决策树svm 等等...)

如果您想使用一些回归方法,我建议您使用logistic regression(它非常困难)

因为您当前的模型仅包含 2 个变量 averagestd 一个 svm,可能会产生更好的结果(基本上它将数据投影到更高维度并在那里进行分类)

请记住,所有方法(可能除了决策树等)都会输出另一个分数,例如 01 之间的分类概率,因此必须在最后应用阈值

【讨论】:

    猜你喜欢
    • 2020-02-13
    • 2020-01-14
    • 2012-08-21
    • 2017-09-07
    • 1970-01-01
    • 2020-04-07
    • 2015-09-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多