【问题标题】:Twitter Data Mining: Degrees of separationTwitter 数据挖掘:分离度
【发布时间】:2010-10-21 13:59:36
【问题描述】:

我可以使用哪些现成可用的算法来挖掘 twitter 数据,以找出 twitter 上 2 人之间的分离程度。

当社交图谱不断变化和更新时,它会如何变化。

然后,是否有任何我可以使用的 twitter 社交图数据转储,而不是进行如此多的 API 调用来重新开始。

【问题讨论】:

    标签: python twitter dump social-graph


    【解决方案1】:

    来自Twitter API

    What's the Data Mining Feed and can I have access to it?

    The Data Mining Feed 是我们的 /statuses/public_timeline REST API 方法的扩展版本。它返回 600 个最近的公共状态,一次缓存一分钟。您最多可以每分钟请求一次,以获取 Twitter 上公开状态的代表性样本。我们免费向研究人员和爱好者提供此服务(并且没有服务质量保证)。我们所要求的只是您提供您的研究或项目的简要说明以及您将从其请求提要的 IP 地址;只需填写此表格。请注意,数据挖掘提要并非旨在提供 Twitter 上所有公共更新的连续流;有关即将推出的“firehose”解决方案的更多信息,请参见上文。

    另见:Streaming API Documentation

    【讨论】:

      【解决方案2】:

      有一家公司提供社交图的转储,但它已被删除并且不再可用。正如您已经意识到的那样 - 这有点难,因为它一直在变化。

      我建议查看他们的 social_graph api 方法,因为它们以最少的 API 调用提供最多的信息。

      【讨论】:

        【解决方案3】:

        可能还有其他方法可以做到这一点,但我刚刚花了 10 分钟的时间研究做类似的事情并偶然发现了这个问题。

        我会使用无向图(和加权 - 因为我也想查看位置)图 - 在 py 中使用 JgraphT 或类似的; JGraphT 基于 java,但包含不同的预写算法。

        然后您可以使用一种称为 BellmanFord 的算法;与 Dijkstras 不同,接受整数输入并在图形中搜索具有整数输入且仅输入整数的最短路径。

        http://en.wikipedia.org/wiki/Bellman%E2%80%93Ford_algorithm

        我最近在一个飞行路线项目中使用它,迭代以找到具有最短“跳”(边)的最短路径。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2014-02-02
          • 1970-01-01
          • 1970-01-01
          • 2016-06-26
          • 1970-01-01
          • 2011-02-07
          • 2019-09-21
          • 2021-11-16
          相关资源
          最近更新 更多