收集大量推文的最佳方式？答案

【问题标题】：Best way to gather large volume of tweets?收集大量推文的最佳方式？
【发布时间】：2014-01-23 00:50:53
【问题描述】：

所以我目前正在尝试收集特定位置的推文，然后从收集的推文中分析该位置发生的情况。我的任务基本上涉及大量的数据挖掘。

然而，我遇到的主要问题是收集足够多的推文，以便我做出判断。

我一直在使用 Twitter Streaming API，但是这只提供了所有推文的 1%，这远远不够。我挖掘了 100,000 条推文，但很少有英文的，更不用说与我正在寻找的位置相关了。

我还注意到 twitter 速率限制了您通过其 API 调用方法的频率。 Trendsmap.com 之类的网站如何运作？他们是否以某种方式访问更大的数据集？

编辑：好的，所以我尝试在 twiiter4j API 中使用地理定位功能。事实证明，如果您小心实施，可以避免速率限制。然而，在发推文时实际上打开了地理定位功能的人数非常少。因此，这并不代表该地区的人。我似乎每次都收到相同的推文。 Twitter 确实提供了一个搜索运算符“near”，在他们的网站上运行良好。然而，据我所知，他们还没有在他们的 API 中包含这个功能。

【问题讨论】：

标签： java twitter tweets

【解决方案1】：

如果您是 searching using the Twitter API，则可以使用 geocode 选项将搜索限制在特定地理位置。

您可以使用result_type=recent 来确保您只收到最新的推文。

count 的最大值（即每个请求的推文数）为 100。

search requests per hour 的当前数量限制为 450。

那么，每小时最多 45,000 条推文 - 这对你来说足够了吗？

tl:dr - 使用最严格的搜索参数集将结果限制在您实际需要的范围内。

【讨论】：

感谢您的回复。我已经尝试过你所说的，但似乎每次只收到少量的推文。这很可能是因为我正在搜索的区域中的大多数人都没有打开他们的地理位置。
这是设计使然。如果人们想将他们的位置保密，那么您将无法找到它。
我应该自己尝试抓取它，希望我可以使用近搜索运算符来收集推文。