【问题标题】:How to calculate difference between amount of rows for most recent date and second most recent date如何计算最近日期和第二最近日期的行数之间的差异
【发布时间】:2022-01-10 22:22:56
【问题描述】:

我有以下df:

Index     Address     Date     
0  0x06b  2021-12-02  16:03:09.332
1  0x04t  2021-12-03  16:03:09.332
2  0x12c  2021-12-03  16:03:09.332
3  0x3d5  2021-12-04  16:03:09.332
4  0x077  2021-12-04  16:03:09.332
5  0x998  2021-12-04  16:03:09.332

我想计算最近日期 (t) 与前一个日期 (t-1) 之间的行数差异 (t)但也适用于之前的任何日期 (t-2, t-3, ..., t-n)。

在这种情况下,t - (t-1) 的答案应该是 1,因为最近的日期有 3 行,而最近的日期有 2 行。 3-2 = 1。

我已尝试在this StackOverflow post 中实施该解决方案,但似乎不起作用。

【问题讨论】:

  • len() 只是告诉您字符串中的字符数,并且每次显示的字符数都是相同的。尝试使用差异,即 C3-c2 并将格式设置为小时和分钟。
  • 你说得对,我提到len()的时候不是很准确。我的意思是列的长度(即给定日期的行数)。

标签: python pandas dataframe datetime series


【解决方案1】:

我认为您想计算每天记录数与最新可用日期的增量 - 以下是否可以满足您的需求:

import pandas as pd
# Set up the test dataframe
df = pd.DataFrame({"Address":["2021-12-02", "2021-12-03","2021-12-03","2021-12-04", "2021-12-04", "2021-12-04"]})
df["Address"] = pd.to_datetime(df["Address"])

df2 = df.groupby("Address")[["Address"]].count().rename(columns={"Address": "count"})
# This will make sure it will calculate vs last available date
df2.at[max(df2.index),"count"] - df2

输出

            count
Address
2021-12-02      2
2021-12-03      1
2021-12-04      0

【讨论】:

  • 谢谢!如果每行的地址不同,这是否有效?请参阅原始帖子中的编辑。
  • @LuizScheuer 是的,我的意思是在这种情况下,如果我正确理解了您的问题,那么每个地址/日期的计数都会为 1,因此差异将为 0
  • 明白了,是的,你完全理解我的要求。不幸的是,有 2 个问题:1)我收到以下错误:KeyError: '2021-12-04'即使该值出现在列中,并且 2)这会自动计算最近日期之间的差异,还是仅计算最近日期之间的差异,特别是 '2021- 12-04' 和其他日期?因为我会每天运行一次这段代码,最近的日期会改变。
  • @LuizScheuer 请查看编辑后的版本。我已包含用于生成测试数据集的代码 + max(df2.index) 将确保您可以动态生成报告(相对于最后可用日期)
  • 我正在检查,因为我得到了一个我不应该得到的号码,所以我正在检查我的数据是否有缺陷。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-11-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-11-27
相关资源
最近更新 更多