【发布时间】:2020-09-23 00:18:57
【问题描述】:
我有以下两个数据集 - 一个带有文本的数据集:
text = {'Text':[['Nike', 'invests', 'in', 'shoes'], ['Adidas', 'invests', 'in', 't-shirts']]}
text_df = pd.DataFrame(text)
text_df
以及包含单词和相应分数和主题的数据集。
points = {'Text':['invests', 'shoes', 'Adidas'], 'Score':[1, 2, 1], 'Topic':['not_name', 'not_name', 'name' ] }
points_df = pd.DataFrame(points)
points_df
对于文本数据集中的每一行,我想看看这个词是否存在,如果这个词存在, 创建一个以类别命名的列,并创建一个包含相关单词分数的新列表。如果单词不存在,则分配零。
这就是结果
text_results = {'Text':[['Nike', 'invests', 'in', 'shoes'], ['Adidas', 'invests', 'in', 't-shirts']], 'not_name': [[0, 1, 0, 2], [0, 1, 0, 0]], 'name': [[0, 0, 0, 0], [1, 0, 0, 0]]}
results_df = pd.DataFrame(text_results)
results_df
有什么建议吗?我在海上有点迷路了!
【问题讨论】: