【发布时间】:2022-02-03 04:57:19
【问题描述】:
我有一个大型数据框(约 30,000 行),其中有两个日期字段“start_date”和“end_date”。
我想总结数据,这样我有 1 列包含所有日期,第二列包含该日期在“start_date”和“end_date”之间的所有行的计数。
我可以使用 2 个 for 循环来完成这项工作,但它的效率非常低,因为它将大约 180 个日期与 30,000 行日期范围进行比较。
下面是一个例子。假设我有以下数据框。
df <- tibble(
start_date = c(1,1,2,2,3,3,4,4,5,5),
end_date = c(2,3,4,5,6,7,8,9,10,11)
)
我希望它输出一个看起来像这样的表/数据框
Date Count
1 2
2 4
3 5
4 6
5 7
6 6
7 5
8 4
9 3
10 2
11 1
是否有一些 TidyVerse 函数或其他任何东西可以有效地进行这种转换?
【问题讨论】:
标签: r date count intervals date-range