【问题标题】:PRAW: serializing Comment and Submission objects as JSONPRAW:将评论和提交对象序列化为 JSON
【发布时间】:2014-09-05 02:15:03
【问题描述】:

我目前正在开发一个使用 praw 进行数据挖掘的 reddit 爬虫。我想从 subreddits 爬取 cmets 和提交,然后将它们保存在数据库或文件中,最好是 json 格式以供以后使用。 我在尝试将评论和提交对象序列化为 python 中的 JSON 对象时遇到问题。是否有现有的方法或方法可以做到这一点? 注意:我对 python 也很陌生。

提前感谢您的帮助!

【问题讨论】:

    标签: python json praw


    【解决方案1】:

    更新 ---------

    看来这已经不可能了,向 Antoine 致敬

    https://github.com/praw-dev/praw/issues/701

    我不确定是否有办法序列化您需要的内容,但您可以使用以下方式保存提交 ID:

    some_id = sub.id
    

    然后在以后用

    检索它们
    r.get_submission(submission_id=some_id)
    

    编辑 ------------------------------------------

    所以做了一些研究,发现了这个:https://github.com/praw-dev/praw/issues/271

    所以基本上你可以使用以下方式打开存储 json:

    r.config.store_json_result = True
    

    然后您可以使用评论或提交的 json_dict 成员访问 json 数据。

    【讨论】:

    • 啊,我想最好保存整个提交,所以我下次只需要抓取新的 cmets
    • 太棒了,谢谢!我在对象中看到了属性,但它总是无,不知道我可以打开设置
    • 是的,我也看到了,这让我很烦,所以我查看了 github。很高兴能提供帮助。
    • 现在看到这个的任何人都应该知道它现在不再可用:github.com/praw-dev/praw/issues/701
    猜你喜欢
    • 2014-01-16
    • 1970-01-01
    • 2010-10-08
    • 1970-01-01
    • 1970-01-01
    • 2016-12-22
    • 2018-07-20
    相关资源
    最近更新 更多