【发布时间】:2014-01-23 00:50:53
【问题描述】:
所以我目前正在尝试收集特定位置的推文,然后从收集的推文中分析该位置发生的情况。我的任务基本上涉及大量的数据挖掘。
然而,我遇到的主要问题是收集足够多的推文,以便我做出判断。
我一直在使用 Twitter Streaming API,但是这只提供了所有推文的 1%,这远远不够。我挖掘了 100,000 条推文,但很少有英文的,更不用说与我正在寻找的位置相关了。
我还注意到 twitter 速率限制了您通过其 API 调用方法的频率。 Trendsmap.com 之类的网站如何运作?他们是否以某种方式访问更大的数据集?
编辑:好的,所以我尝试在 twiiter4j API 中使用地理定位功能。事实证明,如果您小心实施,可以避免速率限制。然而,在发推文时实际上打开了地理定位功能的人数非常少。因此,这并不代表该地区的人。我似乎每次都收到相同的推文。 Twitter 确实提供了一个搜索运算符“near”,在他们的网站上运行良好。然而,据我所知,他们还没有在他们的 API 中包含这个功能。
【问题讨论】: