【发布时间】:2020-05-09 01:45:40
【问题描述】:
我正在使用 Amazon Textract 解析图像 (png) 并提取表格。
当我用open(file_name, "r") 打开它并读取它的行时,这是一个这样的 csv 示例:
['Table: Table_1\n',
'\n',
'Test Name ,Result ,Flag ,Reference Range ,Lab ,\n',
'HEPATIC FUNCTION PANEL PROTEIN, TOTAL ,6.1 ,,6.1-8.1 g/dL ,EN ,\n',
'ALBUMIN ,4.3 ,,3.6-5.1 g/dL ,EN ,\n',
'GLOBULIN ,1.8 ,LOW ,1.9-3.7 g/dL (calc) ,EN ,\n',
'ALBUMIN/GLOBULIN RATIO ,2.4 ,,1.0-2.5 (calc) ,EN ,\n',
'BILIRUBIN, TOTAL ,0.6 ,,0.2-1.2 mg/dL ,EN ,\n',
'BILIRUBIN, DIRECT ,0.2 ,,< OR = 0.2 mg/dL ,EN ,\n',
'BILIRUBIN, INDIRECT ,0.4 ,,0.2-1.2 mg/dL (calc) ,EN ,\n',
'ALKALINE PHOSPHATASE ,61 ,,40-115 U/L ,EN ,\n',
'AST ,27 ,,10-35 U/L ,EN ,\n',
'ALT ,19 ,,9-46 U/L ,EN ,\n',
'\n',
'\n',
'\n',
'\n',
'\n']
我可以用pandasread_csv 阅读它,但我遇到了错误(它总是以不同的格式出现——或多或少的空格,标题前的第一行不同)。
请告知如何从此类 csv 中提取表格?
【问题讨论】:
-
你考虑过使用正则表达式吗?
-
@manu190466 这里适合什么正则表达式?我不这么认为...
-
BILIRUBIN 的 TOTAL、DIRECT 或 INDIRECT 标志应该去哪里?没有对应的列标题。
标签: python-3.x pandas amazon-textract