带有关联规则挖掘的情感分析答案

【问题标题】：Sentiment analysis with association rule mining带有关联规则挖掘的情感分析
【发布时间】：2014-07-13 16:33:21
【问题描述】：

我正在尝试提出一种算法，以在同一个句子中找到该产品最常用的前 3 个形容词。我想使用关联规则挖掘（Apriori算法）。

为此，我计划使用 twitter 数据。我可以或多或少地将 twits 分解成句子，然后通过过滤，我可以找到产品名称和形容词。

例如，过滤后我有类似的数据；

ipad mini，很棒

ipad mini，太可怕了

三星galaxy s2，最好的

... 等等

产品名称和形容词是先前定义的。所以我有一组产品名称和一组我正在寻找的形容词。

我读过几篇关于情感分析和规则挖掘的论文，他们都说使用了 Apriori 算法。但他们没有说他们是如何使用它的，也没有提供细节。

Therefore how can I reduce my problem to association rule mining problem? 
What values should I  use for minsup and minconf? 
How can I modify Apriori algorithm to solve this problem?

我在想什么；

我应该为每种产品分别找到常用形容词。然后通过排序，我可以获得前 3 个形容词。但是不知道对不对。

【问题讨论】：

标签： data-mining sentiment-analysis apriori

【解决方案1】：

为每个产品找出前 3 个最常用的形容词不是关联规则挖掘。

要使 Apriori 产生好的结果，您必须对长度为 4 及以上的项集感兴趣。 Apriori 剪枝从长度 3 开始，并在长度 4 开始产生主要收益。在长度 2 处，它主要是枚举所有对。如果您只对成对（产品、形容词）感兴趣，那么 apriori 所做的工作就超出了必要的范围。

改为使用计数。使用哈希表。如果您真的有 EB 的数据，请使用近似计数和重击算法。（但很可能，在提取这些对后，您没有 EB 的数据......）

如果您只需要解决这个更简单的问题，请不要费心研究关联规则挖掘。

关联规则挖掘真的只是为了寻找诸如

之类的模式

pasta, tomato, onion -> basil

和更复杂的规则。 Apriori 的贡献是在从长度 n-1 -> n 到长度 n > 2 时减少候选者的数量。当 n > 3 时它变得更有效。

【讨论】：

【解决方案2】：

将您的问题归结为关联规则挖掘 (ARM)

创建一个包含所有主题和形容词的特征向量。如果提要包含主题，则在元组中为其放置 1，否则为 0。例如。让我们假设主题是三星和苹果。形容词又好又可怕。并且饲料含有三星好。那么它对应的元组是：

三星苹果好可怕

1 0 1 0

需要修改 Apriori 算法

使用约束先验算法生成“主题”-->“形容词”类型的关联规则。 'topic' --> '形容词' 是一个约束。

如何设置 MinSup 和 MinConf ：阅读题为“Minin top-k 关联规则”的论文。用 k=3 来实现 3 个顶级形容词。

【讨论】：