【发布时间】:2019-04-02 20:14:45
【问题描述】:
我是一名 Python 新手,我必须分析一个包含 Excel 格式的原始传感器数据的大型数据集。
每个研究参与者的每个 Excel 数据文件都大于 100 MB。 excel 文件包含 5 张表,用于测量 5 种不同的生理参数。每张表包含超过 100 万行和两列(时间、生理参数)。
在传感器数据达到 100 万行后,数据会自动在 Excel 文件的以下列(C 和 D)中继续。
每次我尝试在 Python 中加载数据文件时,都需要很长时间。我想知道几件事:
1) 如何告诉 Python 从特定 Excel 表中读取数据?这需要这么长时间是正常的吗?
这是我尝试过的:
df = pd.read_excel("filepath", sheet_name="Sheetname")
print (df.head (5))
2) 在 Python 中使用 Pandas 对这个大型数据文件进行数据处理是否可行?我试过这个来加快这个过程:
import xlrd
work_book = xlrd.open_workbook('filepath', on_demand=True)
work_book.release_resources()
3) 稍后:我想比较不同研究参与者的生理参数。由于这是研究参与者之间的时间序列分析,我该如何开始在 Python 中进行此操作?
我在几天内学会了 Python 的基础知识,到目前为止我很喜欢它。我意识到我还有很长的路要走。
更新:我想我刚刚完成了时间序列分析(实际上只是趋势分析,使用了 Dickey-Fuller 检验和滚动平均可视化技术)! :D 非常感谢大家的帮助!!! pandas 中的“日期时间”模块对我来说是最难解决的,我的日期时间列仍然被识别为“对象”。这是正常的吗?不应该是 datetime64 吗?
【问题讨论】:
-
为了帮助你加快加载速度,我们需要看看你现在是怎么做的。您可以编辑您的问题以包含您的代码的那部分吗?
-
我刚刚添加了,谢谢! :)
标签: python excel pandas sensors