【发布时间】:2018-11-01 09:37:20
【问题描述】:
我有一个 .csv 格式的数据集,其中包含我将用于性别语音识别的声学特征,以根据数据集预测它的性别。
我的问题是我拥有25 samples of females 和152 samples of males 的数据集。总计:177 samples (or rows)。
当我使用算法对数据进行训练时,这会给我带来问题。
我的问题是,如何平衡男女比例?我如何ignore 或从152 to 25 减少男性样本的数量,以便男性和女性之间的比例可以为1:1?所以我有 25 个女性样本和 25 个男性样本。
有什么方法可以用吗?
我的 csv 文件示例:
> 1 - female
>
> .
>
> 25 - female
>
> 26 - male
>
> .
>
> .
>
> .
>
> 177 - male
代码在python。
【问题讨论】:
-
为什么不随机抽取25个男性样本,然后对25个男性和25个女性进行分析?
-
我该怎么做?有什么方法可以告诉我或解释一下吗?:)
-
是的,但我需要有关您的文件的更多信息。女性总是在第 1 到 26 行?只有一个文件吗?您是否使用
pandas读取csv文件? -
是的,我使用熊猫。从第 1 行到第 26 行总是只有女性。请注意,我在文件中也有标题
-
好的,我现在正在写答案
标签: python python-3.x csv