【问题标题】:Collecting and Processing data with PHP (Twitter Streaming API)使用 PHP (Twitter Streaming API) 收集和处理数据
【发布时间】:2012-04-11 16:09:14
【问题描述】:

在阅读了所有的 twitter 流 API 和 Phirehose PHP 文档之后,我遇到了一些我还没有做的事情,分别收集和处理数据。

如果我理解正确的话,其背后的逻辑是防止在处理阶段出现日志堵塞,从而备份收集过程。我以前看过一些例子,但它们基本上在收集后立即写入 MySQL 数据库,这似乎与 twitter 建议的做法背道而驰。

我想要一些建议/帮助是,处理此问题的最佳方法是什么以及如何处理。似乎人们建议将所有数据直接写入文本文件,然后使用单独的函数对其进行解析/处理。但是使用这种方法,我认为它可能会占用内存。

这就是问题所在,这一切都将作为守护进程/后台进程运行。那么有没有人有解决这样的问题的经验,或者更具体地说,twitter phirehose 库?谢谢!

一些注意事项: *连接将通过一个套接字,所以我的猜测是该文件将不断被附加?不知道是否有人对此有任何反馈

【问题讨论】:

    标签: php sockets twitter twitter-streaming-api phirehose


    【解决方案1】:

    phirehose 库附带了一个如何执行此操作的示例。见:

    这使用了一个平面文件,它的可扩展性和速度非常快,即:您的平均硬盘可以以 40MB/s+ 的速度顺序写入并线性扩展(即:与数据库不同,它不会随着变大而变慢) .

    您不需要任何数据库功能来使用流(即:您只需要下一条推文,不涉及“查询”)。

    如果您经常旋转文件,您将获得近乎实时的性能(如果需要)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-11-03
      • 2019-06-28
      • 1970-01-01
      • 2017-01-23
      • 2013-01-03
      • 1970-01-01
      相关资源
      最近更新 更多