【问题标题】:Is there any sentiment forum dataset for unsupervised training available?是否有可用于无监督训练的情绪论坛数据集?
【发布时间】:2019-03-21 19:46:58
【问题描述】:

我最近完成了一个机器学习课程,想制作一个论坛情绪分析工具,将其应用于股票相关的论坛。

这个想法是:

  1. 使用他们的 cmets 捕获(文本挖掘)用户,并评估他们的评论情绪(正面、负面、中立)。
  2. 捕捉这些 cmet 之后发生的事情(股市),并相应地为用户分配权重(如果用户的情绪是准确的并且市场遵循相同的方向,则权重更大)
  3. 使用 cmets 作为预测市场方向的工具。

实际上,我自己做这件事(关注论坛),加上我自己的技术分析和义务尽职调查,这对我来说效果很好。我只是想尝试将其自动化一点,甚至可能允许程序使用我的一些账户(首先进行模拟交易,如果它表现得体,则在真实账户中分配一些钱)

这将是我的第一个机器学习项目(仅作为概念验证),因此非常感谢任何 cmets。

我发现最大的问题是我想做一个无监督训练,我需要一个样本数据集来进行训练。

问题:是否有任何已知的论坛情绪数据集可用于无监督训练?

我找到了几个情绪数据集(twitter、imbd、amazon 评论),但它们非常特定于他们的利基(短信、电影、产品......),但我正在寻找更通用的东西。

【问题讨论】:

    标签: sentiment-analysis unsupervised-learning


    【解决方案1】:

    由于您正在寻找一种无监督的方法,因此您可以使用与您的“真实案例场景”相匹配的任何数据集。文本挖掘和情感分析通常针对手头的问题量身定制,因此很容易直接从真实数据开始。最好的方法是构建一个抓取工具,直接抓取您要分析的论坛帖子。您可以使用 Python (beautifulsoup/selenium) 轻松构建刮板。网上到处都是很好的教程 eg:https://www.dataquest.io/blog/web-scraping-tutorial-python/

    【讨论】:

    • 谢谢;我从网站上抓取数据没有问题;我的问题是如何为每条评论分配一个有效的情绪值(正面、负面、中性),以便我可以使用该数据集进行无监督训练。
    • @PtolomeoXII 如果需要为每条评论分配正面/负面/中性标签,您实际上不是在进行监督学习吗?
    • 对不起 Ptolomeo,我可能误解了您的问题,但我同意 Darren 的观点,如果您希望为数据集的每个样本分配一个实验室,那么您正在寻找一种有监督的方法。在无监督学习中,您不需要数据的标签。
    猜你喜欢
    • 2016-02-06
    • 2019-05-17
    • 2011-04-24
    • 1970-01-01
    • 2023-01-19
    • 2011-11-09
    • 1970-01-01
    • 2015-10-18
    • 2018-03-07
    相关资源
    最近更新 更多