【问题标题】:Is it possible to predict sentiments using supervised deep learning method?是否可以使用有监督的深度学习方法来预测情绪?
【发布时间】:2020-10-22 11:09:27
【问题描述】:

我创建了一个包含 30,000 个标题的语料库。我想使用高级监督机器学习(深度学习)方法(例如 RNN、LSTM 或 DNN)来预测这些头条新闻的情绪。

我的问题是:是否可以使用任何标记数据集(例如 IMDB 电影评论、亚马逊评论或 yelp 评论)来训练和测试深度学习模型。 例如,假设我们使用 RNN 训练和测试 IMDB 电影评论数据集,得到 92% 的 f1 分数。

那么,我可以输入我的未标记数据集(30,000 个标题)并使用这个经过训练和测试的模型预测他们的情绪吗?

问这个问题的原因是我发现很多博客和教程的代码都使用深度学习方法进行情感分析。他们使用标签数据集并训练和测试模型并缩短 ....accuracy 或 f1 分数。没有人走得更远,输入未标记的数据并用他们的模型“预测”情绪。这就是为什么我想知道这是否可能。

感谢您的建议和建议。

【问题讨论】:

  • 不是堆栈溢出问题,因为没有代码。不过,要回答你的问题,这取决于。如果您的头条新闻也是 imdb 电影评论,那么可以。如果您的标题是商业电子邮件标题,那么不是。在特定领域训练的模型在大多数情况下仅适用于该领域。进一步概括它是可能的,但通常需要大量的工作/数据。

标签: python deep-learning neural-network sentiment-analysis


【解决方案1】:

好问题,

是的,没有什么能阻止您针对自己的数据集进行测试。但是,这不是应该这样做的:

例如,您在亚马逊评论上训练模型,然后在电影评论上对其进行测试。那么有什么不同呢?数据的分布不同,这可能会产生很多副作用。两组评论中单词、句子、隐喻的选择会有所不同。

例如。考虑一下生命科学领域的这篇评论:

这种药物可以部分治愈癌症

如果您在亚马逊评论数据上进行过训练,这很可能会输出负面情绪,因为 cancer 在其他领域是一个负面词。因此,需要针对不同的领域训练不同的情感分类器。

总结:

  1. 尽可能尝试使用来自同一数据源的数据。
  2. 对相同的域数据进行训练和预测。

【讨论】:

  • 感谢您的回答。因此,如果我理解正确,这意味着,如果我标记了我的一些数据(比如说 30,000 个中的 4000 个)并在这些标记的数据上训练和测试(验证)模型。那我能预测剩下的26000条头条的情绪吗?是对的吗?如果是的话,如果可能的话,你能推荐一些资源吗?
  • 是的,你说得对。因此,标记 4000 个数据点是一个好主意。因此,在贴标签之前,您应该始终注意以下几点: 1. 积极的情绪可以用不同的形式(或文字)表达。尝试找到那些具有不同形式的 pos/neg 情绪的例子。 2. 这将有助于模型在您的语料库中很好地泛化。此外,没有合适的数字(例如 4000 个示例)来计划训练阶段。这一切都取决于数据的质量。也许 1000 个示例就足够了,或者 18000 个示例仍然不够。 #实验
猜你喜欢
  • 2017-06-29
  • 2013-11-07
  • 2018-10-17
  • 2017-06-27
  • 2012-09-02
  • 2014-04-20
  • 2018-10-01
  • 2016-12-23
  • 2013-03-24
相关资源
最近更新 更多