【发布时间】:2021-12-10 09:46:23
【问题描述】:
我目前正在尝试使用 python 和 pandas 库处理一些日志文件。日志包含有关发送到服务器的请求的简单信息,我想从中提取有关会话的信息。这里的会话定义为同一用户在特定时间段内发出的一组请求(例如30分钟,从第一次请求到最后一次请求的时间计算,此时间段之后的请求应视为新会话的一部分)
要做到这一点,目前我正在执行嵌套分组:首先我使用 groupby 获取每个用户的请求,然后按 30 分钟间隔对每个用户请求进行分组,最后遍历这些间隔并选择那些实际包含数据的间隔:
# example log entry:
# id,host,time,method,url,response,bytes
# 303372,XXX.XXX.XXX.XXX,1995-07-11 12:17:09,GET,/htbin/wais.com?IMAX,200,6923
by_host = logs.groupby('host', sort=False)
for host, frame in by_host:
by_frame = frame.groupby(pd.Grouper(key='time', freq='30min', origin='start'))
for date, logs in by_frame:
if not logs.empty and logs.shape[0] > 1:
session_calculations()
这当然是非常低效的,并且使计算需要相当长的时间。有没有办法优化这个过程?我无法想出任何成功的东西。
编辑:
host time method url response bytes
0 ***.novo.dk 1995-07-11 12:17:09 GET /ksc.html 200 7067
1 ***.novo.dk 1995-07-11 12:17:48 GET /shuttle/missions/missions.html 200 8678
2 ***.novo.dk 1995-07-11 12:23:10 GET /shuttle/resources/orbiters/columbia.html 200 6922
3 ***.novo.dk 1995-08-09 12:48:48 GET /shuttle/missions/sts-69/mission-sts-69.html 200 11264
4 ***.novo.dk 1995-08-09 12:49:48 GET /shuttle/countdown/liftoff.html 200 4665
预期结果是从请求中提取的会话列表:
host session_time
0 ***.novo.dk 00:06:01
1 ***.novo.dk 00:01:00
请注意,这里的 session_time 是输入的第一个请求和最后一个请求之间的时间差,将它们分组在 30 分钟的时间窗口中。
【问题讨论】:
-
您能否提供一个包含输入数据和预期输出的最小示例?
-
嗨,我提供了示例输入和预期输出
标签: python pandas dataframe group-by