【问题标题】:Collecting Twitter data (Tweets) and storing in DB收集 Twitter 数据 (Tweets) 并存储在数据库中
【发布时间】:2014-08-20 23:39:43
【问题描述】:

我正在尝试收集一些关于收集推文并将其存储在database 中的最佳方式的信息。我一直在查看Twitter Streaming API 并查看一个名为Phirehose 的界面,它似乎可以轻松设置访问此流并收集数据的方式。

我只是想知道这是否是唯一的方法?或者,如果有人可能会推荐一种更好的方法来做到这一点?

对于这个问题的广泛性,我深表歉意,但我只是想获得一些可能为我指明正确方向的信息。

【问题讨论】:

    标签: php twitter twitter-streaming-api phirehose


    【解决方案1】:

    Phirehose 专为您描述的用例而设计:它负责连接(并且还负责在重新连接失败时进行回退等事情)。

    您提到只对某个地理区域感兴趣。使用 Phiehose 的 setLocation() 来做到这一点。请参阅 phirehose 示例目录中的 filter-track-geo.php 以了解如何执行此操作。 (但请注意,您会错过住在您隔壁但决定不在推文中提供其位置的用户的推文。)

    替代方法是不使用streaming API 并使用标准REST API 进行轮询。据我所知,流式 API 没有提供任何东西,但延迟和开销更大。

    【讨论】:

      【解决方案2】:

      Firehouse API 将返回所有公共推文——这对于大多数应用程序来说可能需要处理很多(而且可能也无法免费访问)。 但是,您可以使用 Sample API 每分钟提供 3000 条示例推文。见here

      此(或任何其他 Twitter API)作为 REST API 提供。您可以创建自己的代码来读取 API,也可以使用已经存在的众多库之一。有关库的列表,请参阅 here

      问候, 丹尼尔

      【讨论】:

      • 嗯,我正在考虑从我所在的地理区域获取推文,这可能有助于减少我正在检索的推文数量,但我会查看这些链接。非常感谢您的回复
      猜你喜欢
      • 1970-01-01
      • 2010-10-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多