【问题标题】:Historical data using Reddit API使用 Reddit API 的历史数据
【发布时间】:2018-05-13 22:04:09
【问题描述】:
我正在尝试使用 Reddit API 访问数据分析项目中提及的几个关键字的历史数据。利用 python 美妙易用的 PRAW 包来获取数据。有谁知道 Reddit api 是否有任何功能允许对 subreddit 中的数据进行历史访问?
【问题讨论】:
-
历史是什么意思?你看过submissions吗?如果没有任何 start 和 end 参数,它会从字面上获取每个发布到 subreddit 的帖子(同时遵循 Reddit 的 API 规则,因此可能需要一些时间)。
标签:
python
api
data-science
reddit
praw
【解决方案1】:
您只能获取特定视图的最后 1000 个项目。使用Subreddit 的submissions 属性。
您可以获得不同的视图。我在a reddit comment I made中描述了其他一些观点:
是的。一般来说,您可以获得列表中的最后 1000 个项目
(/r/all 和 /r/popular 列表更高),无论多长时间
以前是的。
要获得超过 1000 个项目:
- 检查所有视图(/r/subreddit/top 等)和所有时间尺度
检查所有审核队列(使用参数only=links):
- 无节制(/about/unmodrated)
- 审核队列 (/about/modqueue)
- 垃圾邮件 (/about/spam)
- 已编辑(/关于/已编辑)
- 报告 (/about/reports)
如果这是一个公共子版块,请考虑使用 pushshift.io