【问题标题】:How can I identify a subset of a dataset which is indicative of the dataset as a whole?如何识别表示整个数据集的数据集子集?
【发布时间】:2021-05-26 01:46:33
【问题描述】:

我有两个数据集:一个包含企业列表,另一个包含这些企业的评论列表(主键是企业 ID)。评论数据集很大,大约有 400 万个值,每个企业可能有低至 0 条评论或多达 100 条评论。我希望为每个企业创建一个词云或独特的词计数器,但是我的计算机无法在本地处理太多评论。有没有办法在不损害其完整性的情况下使数据集更小?例如,我可以为每个商家选择最多 50 条评论吗?

【问题讨论】:

    标签: dataset data-visualization sampling


    【解决方案1】:

    您正在寻找的是没有选择偏差的代表性样本。有几种方法可以选择您的样品。查看此链接https://humansofdata.atlan.com/2017/07/6-sampling-techniques-choose-representative-subset/ 了解一些想法。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-10-02
      • 2018-09-11
      • 2021-07-08
      • 2020-09-01
      • 2023-04-10
      • 2018-10-31
      • 2018-04-18
      • 1970-01-01
      相关资源
      最近更新 更多