【发布时间】:2021-05-26 01:46:33
【问题描述】:
我有两个数据集:一个包含企业列表,另一个包含这些企业的评论列表(主键是企业 ID)。评论数据集很大,大约有 400 万个值,每个企业可能有低至 0 条评论或多达 100 条评论。我希望为每个企业创建一个词云或独特的词计数器,但是我的计算机无法在本地处理太多评论。有没有办法在不损害其完整性的情况下使数据集更小?例如,我可以为每个商家选择最多 50 条评论吗?
【问题讨论】:
标签: dataset data-visualization sampling