【发布时间】:2014-10-23 22:22:32
【问题描述】:
我有 2 个合并在一起的大型数据集。一个数据集包含客户购买的信息,另一个数据集包含同一客户在商店中的访问信息。
当我合并数据时,我是通过 customer_id 进行的,所以现在我有一个如下所示的合并数据集:
# customer_no visit date purchase date
#2 10 20-10-2014 NA
#3 10 NA 12-01-2013
#4 10 17-06-2011 NA
#5 10 NA 18-02-2012
#8 30 22-12-2013 NA
#9 30 14-07-2012 NA
我想生成一个新变量,它给出了第一次访问和第一次购买之间的差异天数。因此,R 应该能够识别每个唯一 customer_no 的访问列中的第一个日期,识别相同 customer_no 的购买列中的第一个日期,然后计算差异。
据推测,新列将全部为 NA,每个客户一个值。
谢谢!!
因此,对于 10 号客户,她在 2011 年 6 月 17 日首次访问,但在 2012 年 2 月 18 日 -> 246 天进行了首次购买。我想知道合并数据集中所有客户的平均值。
谢谢!
【问题讨论】:
-
我认为您的列名可能有误
-
真的!已修复,谢谢!
标签: r distinct difference