【发布时间】:2019-05-15 23:02:50
【问题描述】:
我有一个 HTTP 请求日志。包含的特征有:capture_time、ip、method、url、content、user_agent
所有这些信息都在一个 csv 文件中。
我想在 10 分钟间隔内对来自同一 IP 的所有请求进行分组。
如何使用 pandas 做到这一点?
示例数据集:
date ip method url content agent
- 2019-04-24 23:16:48.742466
- 187.20.211.99
- 发布
- /delivery/check_location
- bairro=Vila&cidade=利马
- Mozilla/5.0 (iPhone;CPU iPhone OS 12_2 类似 Mac OS X)AppleWebKit/605.1.15 (KHTML like Gecko) Mobile/15E148
我已经尝试过使用 groupby 方法。
我想将所有请求内容合并到一行中(对于那些使用 ip 和 time 分组的内容)
【问题讨论】:
-
所以你只关心时间和ip,其他的不重要?您需要在同一时间跨度内计算该 IP 的数量吗?
-
我想根据 ip 和每个请求之间的时间间隔对它们进行分组。 (10 分钟)。我想在同一行上连接的方法、网址和内容。例如:POST url 内容 GET url2 conten2 ...
-
同一个IP在同一个时间跨度会有不同的方法url和内容吗?
-
是的。每个请求的方法和内容可以不同。
-
那么,如果是这样的话,您仍然只想要该 IP 的 1 行吗?