【发布时间】:2015-03-24 22:27:54
【问题描述】:
我想在几周内从 twitter 收集数据。
为此,我使用 RStudio Server 和 crontab 自动运行多个脚本,如下所示:
require(ROAuth)
require(twitteR)
require(plyr)
load("twitter_authentication.Rdata")
registerTwitterOAuth(cred)
searchResults <- searchTwitter("#hashtag", n=15000, since = as.character(Sys.Date()-1), until = as.character(Sys.Date()))
head(searchResults)
tweetsDf = ldply(searchResults, function(t) t$toDataFrame())
write.csv(tweetsDf, file = paste("tweets_test_", Sys.Date() - 1, ".csv", sep = ""))
在某些日子里,每个主题标签我只会有几条推文(最多 100 条),因此脚本运行顺畅。但是,在其他日子里,某个主题标签会有数千条推文(当然,我使用的不是“主题标签”这个词,而是我学习所需的词)。
我可以将retryOnRateLimit=10 添加到serchTwitter。但是当我每天搜索多个主题标签时,我应该如何在 crontab 中对这些查询进行计时?
为了组织这些查询,我需要知道在 15 分钟的时间间隔内运行一次脚本可以收集多少条推文!有人知道答案吗? (当然,根据 Twitter API 的速率限制,我可以做到
每 15 分钟窗口 180 个查询
但这是多少条推文?)
【问题讨论】:
-
我刚刚尝试收集昨天的推文,其中提到了@WhiteHouse。在超过 11,000 条推文之后,我达到了速率限制。
标签: r twitter crontab twitter-oauth