R中的遗传数据模拟答案

【问题标题】：simulation of genetic data in RR中的遗传数据模拟
【发布时间】：2012-09-03 07:15:29
【问题描述】：

我正在寻找可用于模拟特定 SNP 和定量表型之间的遗传关联的最佳方法或最佳软件包，除了我知道因果变异外，模拟数据与我的真实数据最相似。我在 R 中看到的所有软件包似乎都专门用于谱系数据或指定了合并和其他进化因素的种群数据，但我没有任何种群遗传学经验，我只想模拟欧洲的简单案例与我的真实数据具有相似特征的人群（即性状的正态分布和基因型的加性效应，相似的等位基因频率……）例如，如果我的基因数据是 X，我的定量变量是 Y：

X <-rbinom(1000,2,0.4)
Y <- rnorm(1000,1,0.4)

我在 R 中寻找类似于 Plink 中的函数的东西，其中需要指定等位基因频率的范围、表型的范围，并指定应该与基因型相关的特定变体（这很重要，因为我需要在不同的数据集中重复这些关联，因果变量相同）

有人可以帮帮我吗？

【问题讨论】：

也看看这个问题：stats.stackexchange.com/questions/62208/…

标签： r simulation genetics

【解决方案1】：

如果基因型只改变表型的平均值，这很简单。

phenotype.means <- c(5, 15, 20)  # phenotype means for genotypes 0, 1, and 2
phenotype.sd <- 5
X <- rbinom(1000,2,0.4)
Y <- rnorm(1000, phenotype.means[X], phenotype.sd)

这将导致Y 包含 1000 个正态分布变量，其中具有纯合隐性基因型（aa 或 0）的变量的平均值为 5，具有杂合基因型（Aa 或 1）的变量的平均值为平均为 15，纯合显性基因型（AA，或 2）的平均为 20。

如果您想要更传统的 2 设置表型（AA/Aa 与 aa），只需将 phenotype.means 设置为 c(5, 20, 20)。

【讨论】：

感谢大卫的建议。我可能过度简化了我的真实数据，我正在寻找一种方法来对我的真实数据进行密切建模，因此我希望能够重现与我的数据中相同的等位基因频率，并且我真的需要能够控制结果关联的特定变体，因为然后我需要使用另一个数据集关联这个相同的变体……这是否令人困惑？再次感谢您的帮助
不客气。如果（且仅当）这完全回答了您的问题，您可以accept it。
嗨，大卫，我在stats.stackexchange.com/questions/463952/… 中发布了一个类似的问题。也许你可以对此有所了解。提前谢谢你。