【发布时间】:2018-10-06 03:52:32
【问题描述】:
我正在使用 PyPDF2 从 PDF 文件中提取数据,然后转换为文本格式?
文件的PDF格式如下:
Name : John
Address: 123street , USA
Phone No: 123456
Gender: Male
Name : Jim
Address: 456street , USA
Phone No: 456899
Gender: Male
在 Python 中,我使用以下代码:
import PyPDF2
pdf_file = open('C:\\Users\\Desktop\\Sampletest.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
page_content
这是我从 page_content 得到的结果:
'Name : John \n \nAddress: 123street , USA \n \nPhone No: 123456\n \nGender: Male \n \n \nName : Jim \n \nAddress: 456street , USA \n \nPhone No: 456899\n \nGender: Male \n \n \n'
如何将其格式化为 JSON 或 XML 格式,以便可以在 SQL Server 数据库中使用提取的数据。
我也尝试过使用这种方法
import json
data = json.dumps(page_content)
formatj = json.loads(data)
print (formatj)
输出:
Name : John
Address: 123street , USA
Phone No: 123456
Gender: Male
Name : Jim
Address: 456street , USA
Phone No: 456899
Gender: Male
这与我的 word 文件中的输出相同,但我认为这不是 JSON 格式。
【问题讨论】:
-
你在哪里运行这段代码?在 REPL 中?您是否尝试过
print(page_content)?在一行中单独包含一个变量不会在脚本中产生任何输出 -
到目前为止你有什么尝试?