【发布时间】:2013-02-25 22:15:47
【问题描述】:
标题说明了一切;我有一个 SQL 数据库,其中包含在线对话文本。我已经用 Python 完成了这个项目的大部分工作,所以我想使用 Python 的 NLTK 库来完成这项工作(除非有strong理由不这样做)。
数据按线程、用户名和帖子组织。每个线程或多或少都集中在讨论我有兴趣分析的类别的一个“产品”。最终,当这完成后,我希望每个用户对他们在某个时间讨论过的任何产品都有一个估计的意见(喜欢/不喜欢的交易)。
那么,我想知道的:
1) 我怎样才能确定每个线程是关于什么产品的?我正在阅读有关关键字提取的内容......这是正确的方法吗?
2) 我如何根据他们的帖子确定特定用户的情绪? 以我有限的理解,我必须先“训练” NLTK 以识别某些观点指标,然后我是否简单地确定这些词出现在文本中时的上下文?
您现在可能已经猜到了,我之前没有使用 NLP 的经验。从我目前的阅读来看,我认为我可以应付学习它。如果有人能指出我正确的方向,即使现在只是一个基本而粗略的工作模型也会很棒。 Google 对我帮助不大。
P.S.我有权分析这些数据(以防万一)
【问题讨论】:
-
你有标签数据吗?
-
不,就是这样。我一直在尝试尽可能自动化地执行此操作……标记数据听起来像是一项非常耗时/令人麻木的任务。是否绝对需要衡量情绪?如果是这样,我会考虑把它放在 Mechanical Turk 或类似的东西上......
-
我所知道的所有学习算法都要求您拥有用于构建模型的训练数据集。然后你可以在未标记的数据上释放它。
-
您可以尝试半监督学习,在这种情况下,您可以标记一小部分数据,然后它会从那里获取所有它认为很信任的数据并对其进行训练。
标签: python nlp nltk text-mining sentiment-analysis