【发布时间】:2018-10-24 07:51:31
【问题描述】:
我正在使用https://nlp.stanford.edu/sentiment/treebank.html 数据集。 它有两列。一是回顾一两行。其次是评分,是0到4之间的数字。条目总数为8533。数据分布如下:
- 评分,该评分的示例计数
- 3, 2318
- 1, 2215
- 2, 1623
- 4, 1287
- 0, 1090
现在,我想从这个大小为 10、20、30 等的数据集中抽取一个样本。每次我想保持类分布与原始数据集中相同。 我该怎么做?
【问题讨论】: