【发布时间】:2019-02-01 00:44:00
【问题描述】:
如果每一行都以时间开头,那么合并这些行然后排序是很简单的。我正在尝试将数十年的聊天日志合并在一起,这些日志原本是在开始和结束时由时间戳分隔的纯文本。每个文件都有几个这样的部分。
Session Start (Bob): Sun Nov 30 19:33:38 2003
Bob: hey what's up?
Michael: oh nothing
Session Close (Bob): Mon Dec 1 02:22:18 2003
Session Start (Bob): Thu Dec 4 09:33:38 2003
Michael: long time no hear
Session Close (Bob): Thu Dec 4 13:22:18 2003
每个人都有多个文件代表重叠的时间块。如果一个文件在 11 月和 1 月有会议,另一个文件可能在 12 月和 2 月有会议。我想将它们全部合并到一个按时间顺序排列的文件中。
更复杂的是,有时由于崩溃而没有会话关闭,而只是另一个会话开始。会话关闭应该暗示在此之前发生。如果有任何歧义或重叠,脚本不应合并块。
对任何语言或命令行环境中的解决方案开放。
【问题讨论】:
标签: logging text-processing text-parsing