【发布时间】:2015-07-04 05:15:29
【问题描述】:
我有一个大型数据集(大约 2000 行和 38 列),看起来像这样(某些列中缺少数据):
species crab cmass gill gmass treatment months avglw avgils
222 Cm 65 34.273 p 0.198 Newtons Cove 0 68.108 93.181
223 Cm 57 33.506 p 0.166 Newtons Cove 0 37.908 39.683
225 Cm 65 34.273 p 0.198 Newtons Cove 0 68.108 93.181
231 Cm 62 30.852 p 0.147 Newtons Cove 0 37.285 89.823
239 Cm 65 34.273 p 0.198 Newtons Cove 0 68.108 93.181
240 Cm 57 33.506 p 0.166 Newtons Cove 0 37.908 39.683
241 Cm 62 30.852 p 0.147 Newtons Cove 0 37.285 89.823
242 Cm 63 22.456 p 0.093 Newtons Cove 0 70.005 67.687
243 Cm 59 22.422 p 0.113 Newtons Cove 0 21.834 39.481
每个螃蟹编号有多行,我希望能够对每个螃蟹编号的行进行平均,或者为每个螃蟹编号选择第一个唯一行,然后排除后续行。
例如:我想平均第 222、225、239 行,因为它们都来自螃蟹“65”; 或:我想选择第 222 行,然后排除 225 和 239,因为它们来自已选择的螃蟹。
我尝试过使用 unique() 和 sqldf(),但都没有为我工作。
非常感谢任何建议。谢谢!
【问题讨论】:
标签: r unique large-data