【发布时间】:2017-03-15 12:24:47
【问题描述】:
我应该制作一个包含 2 个特征的随机数据框
gender <- sample(c("Male","Female"), 10000, replace = TRUE, prob = c( 0.5, 0.5))
handed <- sample(c("left_Handed","right_Handed"), 10000, replace = TRUE, prob = c( 0.1, 0.9))
data <- data.frame(gender = gender, handed = handed)
table(data$gender, data$handed)
它工作正常,但我需要让它只有一个表格单元格的值在 50 到 90 之间。
我不知道该怎么做?
当前表给我
left_Handed right_Handed
Female 59 4922
Male 55 4964
如你所见,它给了我 2 个值低于 100 的单元格。
【问题讨论】:
-
为什么?这似乎与您的潜在概率模型不一致。如果您想对性别和惯用手之间的依赖关系进行建模,那么您必须首先确定这种依赖关系是什么,然后以反映它的方式进行采样。
-
您从边际分布中独立采样,但您希望联合分布具有不同的结构? (在那里,你有一些关键词要研究!)另见stackoverflow.com/questions/2281561/…
-
@JohnColeman 这是一个问题的要求,找到控制每个单元格频率的解决方案
标签: r statistics