【发布时间】:2018-06-26 00:08:11
【问题描述】:
假设我有一个 ACT 考试成绩数据集。每个“观察”都是学生参加 ACT 的结果。 ACT 有五个科目:阅读、英语、数学、科学和写作(加上综合分数)。每个测试科目都有一个量表分数、一个国家百分位排名和一个大学准备指标(Y 或N)。
我的问题是(而且似乎总是因为我经常处理评估数据),哪种格式是“整洁”的?
- 其中每一行是一个唯一的学生测试 + 科目组合,每个值都有一个
subject列,然后是scaleScore、percentile和readiness列。 - 其中每一行都是一个唯一的学生测试,所有科目及其各自的值都列在单独的列中。
- 或者我有类似于第一个选项的东西,但将每个主题放在六个表中,每个主题都有一个键加入?
我已经在 SQL + Excel 中工作了一段时间,但我想在 R 中扩展我的 EDA 技能。任何帮助将不胜感激!重点是使用ggplot 进行后续可视化。我猜答案可能只是“视情况而定”,并愿意 gather 和 spread 用于不同的绘图目的。
【问题讨论】:
-
Here's the canonical paper,但这确实取决于。如果您试图将科学分数与数学和阅读分数相匹配,则您的数据必须是宽格式的。如果您尝试在 ggplot 中按主题绘制分数密度,则需要采用长格式。
-
在许多情况下,数据过于整洁可能是一个真正的障碍,特别是如果您想跨行运行计算。知道如何重塑数据比拘泥于单一格式更重要。只是我的意见。