从 .txt 中提取数据并使用 Python 写入 .txt答案

【问题标题】：Extracting data from .txt and writing to .txt with Python从 .txt 中提取数据并使用 Python 写入 .txt
【发布时间】：2018-02-15 23:56:44
【问题描述】：

我正在尝试弄清楚如何使用 python 编写以下问题。假设我们在 .txt 文件中有以下数据集：

datatype1 designator1 3:45:14AM
datatype1 designator1 3:45:19AM
datatype1 designator1 3:45:26AM
datatype1 designator1 3:45:31AM
datatype1 designator1 4:10:05AM
datatype1 designator1 4:10:21AM
datatype1 designator1 4:10:30AM
datatype1 designator1 4:10:46AM

注意时间休息。我需要我的代码来通读文本文件，并且在时间间隔中断的情况下，将文件拆分并将以下内容写入另一个文本文件：

datatype1 designator1 3:45:14AM 3:45:31AM
datatype1 designator1 4:10:05AM 4:10:46AM

换句话说，我想将原始数据压缩为由具有开始和结束时间的单行表示的单个“会话”。

感谢您的帮助！

【问题讨论】：

你的意思是按小时开始和结束时间？

标签： python python-3.x pandas

【解决方案1】：

执行以下步骤：

解析每一行，提取时间
从每次开始，将其转换为日期/时间结构
检查之前的日期/时间结构（如果有）
如果差值大于某个预定义值，则开始一个新文件
写完整行

【讨论】：

【解决方案2】：

你可以使用itertools.groupby:

import itertools
file_data = [i.strip('\n').split() for i in open('filename.txt')]
final_data = [(a, list(b)) for a, b in itertools.groupby(file_data, key=lambda x:':'.join(x[-1].split(':')[:2]))]
new_final_data = [' '.join([' '.join(b[0][:-1]), ' '.join([b[0][-1], b[-1][-1]])]) for _, b in final_data]
print(new_final_data)
with open('filename.txt', 'a') as f:
   f.write('\n'.join(new_final_data))

输出：

['datatype1 designator1 3:45:14AM 3:45:31AM', 'datatype1 designator1 4:10:05AM 4:10:46AM']

【讨论】：

【解决方案3】：

使用 pandas，这项任务变得更具可读性：

import pandas as pd
import io

data = '''\
datatype1 designator1 3:30:14AM
datatype1 designator1 3:30:18AM
datatype1 designator1 3:45:14AM
datatype1 designator1 3:45:19AM
datatype1 designator1 3:45:26AM
datatype1 designator1 3:45:31AM
datatype1 designator1 4:10:05AM
datatype1 designator1 4:10:21AM
datatype1 designator1 4:10:30AM
datatype1 designator1 4:10:46AM'''


# Recreate dataset
df = pd.read_csv(io.StringIO(data),sep='\s+', header=None)

# Use this instead of above for real file
#df = pd.read_csv('path/to/file',sep='\s+', header=None)

# Get first and last by hour (convert to dt)
df[2] = sorted(pd.to_datetime(df[2]))
newdf = df.groupby((df[2].dt.hour, df[2].dt.minute // 15)).agg(['first', 'last'])

# Rename columns and drop duplicates
newdf.columns = list(range(len(newdf.columns)))
newdf.drop(newdf.columns[[1,3]], axis=1, inplace=True)

# Format time
newdf[[4,5]] = newdf[[4,5]].apply(lambda x: x.dt.strftime('%#H:%M:%S%p'))

# Output
print(newdf.to_csv('output.csv', index=False, header=False, sep=' '))

输出.csv：

datatype1 designator1 3:30:14AM 3:30:18AM
datatype1 designator1 3:45:14AM 3:45:31AM
datatype1 designator1 4:10:05AM 4:10:46AM

【讨论】：

谢谢，这很有帮助。一个小调整：数据中有许多实例在一小时内有多个“会话”。修改您提供的代码以适应这种情况的最佳方法是什么？我最初的想法是使用'if'语句，例如“如果时间 (i + 1) - i > 15 分钟，然后切断并开始一个新会话。(i = index)
@Vincent 你能分享一些示例数据和预期输出吗？
@Vincent 我猜你想要 15 分钟的窗口：你可以将另一个变量传递给 groupby，它是每 15 分钟的 div (so 0,1,2,3) 。或者，也许你想迭代地切割？