【发布时间】:2020-11-25 16:59:59
【问题描述】:
我正在从 PDF 中提取表格,并且该页面可以有多个表格。我正在使用 Tika 库进行提取。在这种情况下,输出是包含在一个列表中的 2 个数据帧(即 2 个表) - 请有人分享我如何提取每个数据帧?
对于上下文,每个 df 有 2 列和相同的行数。
例子:
[0 data1
1 data2
2 data3
3 data4
0 data10
1 data12
2 data13
3 data14 ]
我想在这里提取第一个df:
0 data1
1 data2
2 data3
3 data4
我尝试过这样解析:
df[:3] or df[-1]
请有人分享我哪里出错了?
【问题讨论】:
-
IIUC:
list或dict是存储多个 DataFrame 的适当方式。否则,您将需要手动将每个 DataFrame 实例化为一个变量(例如df1 = my_list_of_dataframes[0])。
标签: python python-3.x pandas list dataframe