【问题标题】:Pattern recognition for Datamining and text based anaylysis用于数据挖掘和基于文本的分析的模式识别
【发布时间】:2012-06-25 09:52:39
【问题描述】:

我正在创建一个软件,用于转储用户在其 Twitter 个人资料上发表的关于某些化妆品“XYZ”的评论和发布的纯文本。我已经解析了从 Twitter API 接收到的 JSON 对象,并将原始数据转储到 MySql 数据库中。

现在我必须对这些纯文本进行分析,以获取关于化妆品“XYZ”的好评论或坏评论等模式,并将这些信息输入到单独的 API 中,以便在 HTML 中创建动态可视图表。

我在数据挖掘和基于文本的模式识别领域是全新的。如果有人能建议如何从我数据库中的纯文本中继续使用模式识别算法,为我的单独可视图表 API 提供提要,我将不胜感激。

【问题讨论】:

    标签: algorithm twitter machine-learning data-mining


    【解决方案1】:

    您可能想看看 Mahout(在这种情况下,您可能希望将数据加载到 HDFS 中)。

    您对您的用例并不十分具体,文本分析不是一个简单的问题,但 Mahout 绝对是机器学习应用程序的一个很好的“开箱即用”工具。

    你也可以看看这本书,很不错:Taming Text

    【讨论】:

      【解决方案2】:

      我对您的问题的理解是,您需要一个分类器来区分评论的好坏。

      为了解决这类问题,统计方法被证明是有效的,就像垃圾邮件分类器一样。

      您可以查看与贝叶斯分类器相关的项目,例如 cardmagic/classifier,看看是否有帮助。

      【讨论】:

        【解决方案3】:

        如果您了解模式识别的基础知识:

        1. 为您的产品手动创建两组(正面和负面)Twitter 帖子。
        2. 为发布定义度量、内核或相似性度量。您可以使用高维二进制向量,每个分量代表一个单词,值 1 表示存在,0 表示不存在该单词。您还可以为否定词添加特殊权重,例如“不”。
        3. 使用机器学习算法在手动创建的集合(类)上训练分类器。您可以使用 SVM、神经网络、最近邻分类器...
        4. 使用经过训练的分类器对新的 Twitter 帖子进行分类。

        这是高层次的基本思想。当然,还有很多细节需要注意,但解释它们超出了 SO 答案的范围。

        【讨论】:

          【解决方案4】:

          我真的鼓励您观看以下NLP Stanford lectures,尤其是:

        • 第 3 周 - 情绪分析(这是您想要实现的目标)
        • 第 4 周 - 关系提取(赫斯特模式等)
        • 我认为您会发现它们是非常宝贵的资源。

          【讨论】:

          • 嗨,@user278064,如果可能的话,您能否更新一下“NLP 斯坦福讲座”链接?由于当前链接现在似乎已弃用。谢谢。
          • 这不是问题的答案,尤其是。因为该链接现在不再可用。这就是为什么我不赞成这个答案。
          【解决方案5】:

          这个子域称为情感分析。关于这个主题有大量的讲座和文章。不幸的是,到目前为止,我所看到的真实结果对我来说并没有那么令人信服。

          这一挑战的关键是拥有良好的训练数据。让自己成为一个工具,让您可以快速浏览数据并手动将其标记为正面/中性/负面,以快速获得大量训练集。

          请参阅Stanford NLP Lectures,尤其是第 3 周,了解有关整个过程以及一些最先进的方法和技巧的详细信息。

          【讨论】:

            【解决方案6】:

            您可能想了解 Frontline Systems 的产品 XLMiner:http://www.solver.com/xlminer/

            这是一个用于 Excel 的数据挖掘插件,具有许多内置功能。

            【讨论】:

              猜你喜欢
              • 2012-12-29
              • 2012-02-03
              • 2016-04-04
              • 2019-06-04
              • 2019-09-21
              • 2011-10-11
              • 2011-02-07
              • 2011-12-25
              • 1970-01-01
              相关资源
              最近更新 更多