【发布时间】:2018-08-05 09:13:08
【问题描述】:
我有一个数据框,其中每一行都包含与单个 Reddit 评论相关的各种元数据(例如作者、subreddit、评论文本)。
我想做以下事情:对于每个作者,我想获取他们拥有 cmets 的所有 subreddits 的列表,并将这些数据转换为 pandas 数据框,其中每一行对应一个作者,以及所有的列表他们评论的独特子版块。
我目前正在尝试以下一些组合,但无法完成:
尝试 1:
group = df['subreddit'].groupby(df['author']).unique()
list(group)
尝试 2:
from collections import defaultdict
subreddit_dict = defaultdict(list)
for index, row in df.iterrows():
author = row['author']
subreddit = row['subreddit']
subreddit_dict[author].append(subreddit)
for key, value in subreddit_dict.items():
subreddit_dict[key] = set(value)
subreddit_df = pd.DataFrame.from_dict(subreddit_dict,
orient = 'index')
【问题讨论】:
-
您能否提供一个示例 DF 和预期输出?