【发布时间】:2018-04-13 00:57:24
【问题描述】:
我一直在收集过去一周的推文,收集过去7天与“肺癌”相关的推文,昨天我想我需要开始收集更多的字段,所以我添加了一些字段并开始重新收集上周与“肺癌”相关的推文。问题是,我第一次在 2014 年 9 月 18 日收集了约 2000 条与肺癌相关的推文。但昨晚,它只提供了约 300 条推文,当我查看这组新推文的时间时,它是仅在 2014 年 9 月 18 日约 23:29 至 23:59 之间收集推文。大量数据显然丢失。我不认为这与我的代码(下)有关,我测试了各种方法,包括删除大部分要收集的字段并且数据的时间仍然过早地被切断。
这是 Twitter API 的一个已知问题(收集过去 7 天的数据时)吗?如果是这样,如果有人试图进行认真的研究,那将是非常可怕的。还是我的代码中的某个地方导致了这种情况(注意:它在其他之前/之后的日期运行得非常好)?
import tweepy
import time
import csv
ckey = ""
csecret = ""
atoken = ""
asecret = ""
OAUTH_KEYS = {'consumer_key':ckey, 'consumer_secret':csecret,
'access_token_key':atoken, 'access_token_secret':asecret}
auth = tweepy.OAuthHandler(OAUTH_KEYS['consumer_key'], OAUTH_KEYS['consumer_secret'])
api = tweepy.API(auth)
# Stream the first "xxx" tweets related to "car", then filter out the ones without geo-enabled
# Reference of search (q) operator: https://dev.twitter.com/rest/public/search
# Common parameters: Changeable only here
startSince = '2014-09-18'
endUntil = '2014-09-20'
suffix = '_18SEP2014.csv'
############################
### Lung cancer starts #####
searchTerms2 = '"lung cancer" OR "lung cancers" OR "lungcancer" OR "lungcancers" OR \
"lung tumor" OR "lungtumor" OR "lung tumors" OR "lungtumors" OR "lung neoplasm"'
# Items from 0 to 500,000 (which *should* cover all tweets)
# Increase by 4,000 for each cycle (because 5000-6000 is over the Twitter rate limit)
# Then wait for 20 min before next request (becaues twitter request wait time is 15min)
counter2 = 0
for tweet in tweepy.Cursor(api.search, q=searchTerms2,
since=startSince, until=endUntil).items(999999999): # changeable here
try:
'''
print "Name:", tweet.author.name.encode('utf8')
print "Screen-name:", tweet.author.screen_name.encode('utf8')
print "Tweet created:", tweet.created_at'''
placeHolder = []
placeHolder.append(tweet.author.name.encode('utf8'))
placeHolder.append(tweet.author.screen_name.encode('utf8'))
placeHolder.append(tweet.created_at)
prefix = 'TweetData_lungCancer'
wholeFileName = prefix + suffix
with open(wholeFileName, "ab") as f: # changeable here
writeFile = csv.writer(f)
writeFile.writerow(placeHolder)
counter2 += 1
if counter2 == 4000:
time.sleep(60*20) # wait for 20 min everytime 4,000 tweets are extracted
counter2 = 0
continue
except tweepy.TweepError:
time.sleep(60*20)
continue
except IOError:
time.sleep(60*2.5)
continue
except StopIteration:
break
更新: 从那以后,我尝试在另一台计算机上运行相同的 python 脚本(这比我的家用笔记本电脑更快、更强大)。后者导致了预期的推文数量,我不知道为什么会发生这种情况,因为我的家用笔记本电脑适用于许多程序,但我认为我们可以搁置此案并排除与脚本或 Twitter API 相关的潜在问题.
【问题讨论】:
-
这能回答你的问题吗? “暂时将搜索速率限制为每 15 分钟窗口 180 个查询”dev.twitter.com/rest/public/rate-limiting。我知道向公众开放的 Twitter API 有很多限制。
-
感谢您的意见,但我认为这不是问题所在。我一直在测试,它通常在我提取 6500+ 条推文后达到速率限制,这就是为什么我将睡眠功能设置为每 4000 条记录。收集约 300 个应该远未达到速率限制。
-
你是对的,对不起。我应该注意到
标签: python-2.7 twitter tweepy