【问题标题】:How to take sample from a dataset keeping same class balance?如何从保持相同类平衡的数据集中抽取样本?
【发布时间】:2018-10-24 07:51:31
【问题描述】:

我正在使用https://nlp.stanford.edu/sentiment/treebank.html 数据集。 它有两列。一是回顾一两行。其次是评分,是0到4之间的数字。条目总数为8533。数据分布如下:

  • 评分,该评分的示例计数
  • 3, 2318
  • 1, 2215
  • 2, 1623
  • 4, 1287
  • 0, 1090

现在,我想从这个大小为 10、20、30 等的数据集中抽取一个样本。每次我想保持类分布与原始数据集中相同。 我该怎么做?

【问题讨论】:

    标签: dataset sample sampling


    【解决方案1】:
    猜你喜欢
    • 2017-07-27
    • 2017-10-10
    • 1970-01-01
    • 2023-04-07
    • 1970-01-01
    • 1970-01-01
    • 2019-07-18
    • 2015-08-22
    • 1970-01-01
    相关资源
    最近更新 更多