【发布时间】:2019-08-11 14:48:20
【问题描述】:
我在一个文件夹中有以下数据集:
a) 10 个 excel 电子表格(名称不同)
b) 每个电子表格有 7 个标签。在每个电子表格的 7 个选项卡中,2 个具有完全相同的名称,而其余 5 个具有不同的工作表名称。
c) 我需要连接来自 10 个不同电子表格的五个 Excel 工作表。
d) 在所有 10*5 表中需要连接。
我该怎么做才能连接所有 50 个电子表格,最终输出是一个附加了所有 50 个电子表格的“主”电子表格(不连接每个 Excel 文件中名称完全相同的两张工作表)?
我正在使用以下代码使用 jupyter notebook 连接工作表,但它没有帮助:
import pandas as pd
xlsx = pd.ExcelFile('A://Data/File.xlsx')
data_sheets = []
for sheet in xlsx.sheet_names:
data_sheets.append(xlsx.parse(sheet))
data = pd.concat(data_sheets)
print(data)
感谢阅读。
【问题讨论】:
-
所有工作表都具有相同的数据结构吗?
-
@dubbbdan 是的,所有五个(具有不同的名称)具有完全相同的数据结构,而另外两个(在所有 excel 文件中具有相同的名称)具有完全不同的数据结构。我不关心两个名字相同的人。我需要来自 5 的数据。
-
它们的顺序总是相同吗?你怎么知道你想要的是哪张表(有重复的名字)?
-
@ dubbbdan,例如:说:第一个电子表格具有以下工作表名称:['A','B',1,2,3,4,5],第二个电子表格具有以下工作表名称:[ 'A','B',9,10,11,12,13]。常见的是表格“A”和“B”(我不需要这些),而其余的都需要在彼此下方附加。
标签: python python-3.x pandas