【发布时间】:2019-07-15 20:06:33
【问题描述】:
我正在使用钻石数据集:
install.packages("ggplot2")
library(ggplot2)
data("diamonds")
我必须创建一个数据框,从每个切割质量(一般、良好、非常好、优质、理想)中随机抽取 100 个价格,这将给我 500 个数据点。我在到达那里时遇到了一些麻烦,任何帮助将不胜感激!这是我尝试过的一个公式,但我似乎无法弄清楚如何包含所有属于“剪切”的子集。
diamonds$price[ sample( diamonds$cut, size=100, replace=FALSE )]
我也尝试过使用聚合函数,但这似乎让我离我应该去的地方更远了。我确定我只是遗漏了一些相当明显的东西,但我对此很陌生,我在网上找不到任何关于它的信息。谢谢!
感谢 Camille,我能够做到:
Test.1<-diamonds %>%
group_by(cut) %>%
sample_n(size = 100) %>%
count(price)
我现在似乎无法处理这些数据,因为我需要找到每个切割质量的平均标准偏差等。
【问题讨论】: