【发布时间】:2014-09-05 02:15:03
【问题描述】:
我目前正在开发一个使用 praw 进行数据挖掘的 reddit 爬虫。我想从 subreddits 爬取 cmets 和提交,然后将它们保存在数据库或文件中,最好是 json 格式以供以后使用。 我在尝试将评论和提交对象序列化为 python 中的 JSON 对象时遇到问题。是否有现有的方法或方法可以做到这一点? 注意:我对 python 也很陌生。
提前感谢您的帮助!
【问题讨论】:
我目前正在开发一个使用 praw 进行数据挖掘的 reddit 爬虫。我想从 subreddits 爬取 cmets 和提交,然后将它们保存在数据库或文件中,最好是 json 格式以供以后使用。 我在尝试将评论和提交对象序列化为 python 中的 JSON 对象时遇到问题。是否有现有的方法或方法可以做到这一点? 注意:我对 python 也很陌生。
提前感谢您的帮助!
【问题讨论】:
更新 ---------
看来这已经不可能了,向 Antoine 致敬
我不确定是否有办法序列化您需要的内容,但您可以使用以下方式保存提交 ID:
some_id = sub.id
然后在以后用
检索它们r.get_submission(submission_id=some_id)
编辑 ------------------------------------------
所以做了一些研究,发现了这个:https://github.com/praw-dev/praw/issues/271
所以基本上你可以使用以下方式打开存储 json:
r.config.store_json_result = True
然后您可以使用评论或提交的 json_dict 成员访问 json 数据。
【讨论】: