【问题标题】:Information extraction from Twitter JSON Feed从 Twitter JSON Feed 中提取信息
【发布时间】:2014-10-07 03:44:25
【问题描述】:

我有一个巨大的(以 GB 为单位的)推特数据供以 JSON 格式进行分析。每条推文都表示为一个 json 对象。我需要对这些数据进行少量分析,例如

a:从这些提要中提取对话。 b: 查找统计数据

记录的示例格式 https://gist.github.com/hrp/900964

1.请建议提取所需信息的一般方法。 2.最好使用的语言(Java或任何其他) 3.java处理流程概述(如文件处理等) 4.任何与此问题相关的有用参考链接。

注意:数据由数百万个 JSON 对象组成。

【问题讨论】:

    标签: java python json twitter


    【解决方案1】:

    看看大洞察。大量文档和示例可以帮助您入门。它是一个精确处理海量数据的分析平台

    http://www-01.ibm.com/software/data/infosphere/biginsights/

    【讨论】:

      【解决方案2】:

      在我看来,对您的数据进行分析的最佳语言是 R。在您的情况下,您已经拥有 twitter 数据,但如果您想查询 twitter 数据,您可以使用准备好使用的 R 包也很方便:

      -twitteR:你连接到 Twitter API,你可以查询http://cran.r-project.org/web/packages/twitteR/index.html

      -streamR:连接 Twitter Streaming API 实时获取推文http://cran.r-project.org/web/packages/streamR/index.html

      然后只是谷歌关于如何用 R 挖掘 Twitter 数据,有很多文章,关于如何做到这一点的好方法,创建漂亮的可视化等,这些都会给你很好的见解。它们中的大多数基于一个名为“tm”的包,这是 R 的文本挖掘最流行的包: http://cran.r-project.org/web/packages/tm/index.html

      这里有几个有趣的链接可供您开始使用:

      http://www.r-bloggers.com/analyze-twitter-data-using-r/

      http://www.rdatamining.com/examples/text-mining

      希望对你有帮助!

      【讨论】:

      • 我使用了带有 GSON 的 java,因为数据不是很大。下次会检查R!谢谢..
      猜你喜欢
      • 2016-05-07
      • 2012-07-03
      • 2019-09-06
      • 1970-01-01
      • 2015-05-25
      • 1970-01-01
      • 2018-01-06
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多