如何识别表示整个数据集的数据集子集？答案

【问题标题】：How can I identify a subset of a dataset which is indicative of the dataset as a whole?如何识别表示整个数据集的数据集子集？
【发布时间】：2021-05-26 01:46:33
【问题描述】：

我有两个数据集：一个包含企业列表，另一个包含这些企业的评论列表（主键是企业 ID）。评论数据集很大，大约有 400 万个值，每个企业可能有低至 0 条评论或多达 100 条评论。我希望为每个企业创建一个词云或独特的词计数器，但是我的计算机无法在本地处理太多评论。有没有办法在不损害其完整性的情况下使数据集更小？例如，我可以为每个商家选择最多 50 条评论吗？

【问题讨论】：

标签： dataset data-visualization sampling

【解决方案1】：

您正在寻找的是没有选择偏差的代表性样本。有几种方法可以选择您的样品。查看此链接https://humansofdata.atlan.com/2017/07/6-sampling-techniques-choose-representative-subset/ 了解一些想法。

【讨论】：