【问题标题】:Retrieving only entries with selftext reddit praw仅检索带有 selftext reddit praw 的条目
【发布时间】:2017-12-28 03:06:24
【问题描述】:

我正在下载 Reddit 中排名前 100 的帖子。然而,许多是外部链接、jpg 文件或其他类型的非文本内容。因此我得到一个主要由空单元组成的列表。我想知道是否有办法只检索那些包含selftext 的条目。这是我的代码:

导入 json 导入 nltk 重新进口 导入熊猫

appended_data = []

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries

for submission in top_python:
    if not submission.stickied:

        appended_data.append(submission.selftext)



str_list = list(filter(None, appended_data)) 

【问题讨论】:

    标签: python reddit praw


    【解决方案1】:

    有一个内置标志用于检查某内容是否为文本帖子,is_self。您的代码的更新版本看起来有点像这样:

    import json 
    import nltk 
    import re 
    import pandas
    
    appended_data = []
    
    subreddit = reddit.subreddit('bitcoin') 
    
    top_python = subreddit.hot(limit=100) entries
    
    for submission in top_python:
        if not submission.stickied and submission.is_self:
    
            appended_data.append(submission.selftext)
    
    
    
    str_list = list(filter(None, appended_data)) 
    

    如果您有任何其他问题,请随时发表评论并提问!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-09-06
      • 1970-01-01
      • 2017-07-20
      • 2020-09-20
      • 1970-01-01
      • 1970-01-01
      • 2020-12-16
      相关资源
      最近更新 更多