【发布时间】:2017-07-03 05:41:15
【问题描述】:
我已经使用 pd.read_excel 将 xls 文件读入 Python 中并使用 pandas
我正在尝试清理我的数据,但我已经超出了我的范围。
每条记录之间都有一个空行。在示例图片中,它是 excel 第 4、9 和 11 行。
有一个 cmets 列,在示例(参见链接)中指定为“col_F”。每条记录至少有一个包含文本的单元格。创建此 xls 文件的人将较长的 cmets 拆分为多个单元格。
我想将 col_F 中特定记录的所有数据连接到一个单元格中。
一旦我弄清楚如何正确连接 col_F,我也会删除空白记录。
我正在使用 Python 3.5.0、numpy 1.12.0 和 pandas 0.19.2
这是我目前所拥有的:
import numpy as np
import pandas as pd
data = pd.read_excel("C:/blah/blahblah/file.xls", header=0, nrows=10000)
df = pd.DataFrame(data)
感谢任何建议或见解!
谢谢!
【问题讨论】:
-
提示您或寻求答案:加载您的 df,用 np.nan、dropna('all'axis=1)、ffill()、groupby(col A 到 E) 替换空白。 (lambda x: '\n'.join(x)).reset_index()
-
能否在此处附上或提供下载 Excel 表格的链接?
-
我已经更新了我的问题,试图减少我最初问题的一些歧义。
标签: python python-3.x pandas numpy