【发布时间】:2022-02-06 19:02:09
【问题描述】:
我想问我如何从 5k 变量中提取许多数据。
我有一个 500k 的数据框,数据是杂货数据(超市)。我想对所有收据 ID 进行子集化,但 ID 太多(大约 24,5 k)。我想 ro 找到每个收据的总价格。我如何在不手动输入的情况下对这些 ID 进行子集化?
我使用的数据: this is my data looks like 我想对所有 InvoiceID 进行子集化并计算每个价格。然后我想将其转换为数据框。
我已经尝试使用“for”函数,但它一直在循环。我还在 R 中使用 dplyr 包
我使用的代码:
test = data %>%
group_by(InvoiceNo)%>%
dplyr::summarise(n= n())
bon = test$InvoiceNo
result = for (i in bon){
data = subset(data, subset = InvoiceNo == i)
print(sum(data$Price_Total))
}
test = data.frame("test" = bon,
"wiw" = result)
我想从每个收据的总数中绘制一个图。 我应该如何对其进行子集化?或者我应该使用什么包? 谢谢你
【问题讨论】:
-
您可以使用
split,即split(data, data$InvoiceNo) -
好的,我已经尝试过了。谢谢你的帮助。还有其他方法可以对其进行子集化吗??
-
你好!正如您已经提到的,您的数据非常大,您可以下次提供 dput 的头部。
标签: r dplyr subset subset-sum