【发布时间】:2019-01-27 14:25:07
【问题描述】:
我使用这种方法生成合成数据集:
import numpy as np
import random
def generate_dataset(size, dim):
dataset = [random.randint(0, 2 ** dim) for _ in range(size)]
# Removes duplicates
dataset = list(set(dataset))
return dataset
如您所见,数据点是从[0 - 2^dim] 随机生成的。对于通过这种方法生成的任何数据集,我想为其添加 noise。现在,我正在考虑一个简单的方法来做到这一点,但我不确定它是否在逻辑上正确,所以这里是:
- 从生成的数据集中找出数据点的标准差。
- 生成不在此标准差范围内的新数据点。
- 将它们添加到您的原始数据集中,然后随机播放。
这是产生噪音的方式吗?
谢谢。
【问题讨论】:
标签: statistics data-science noise