【发布时间】:2024-05-29 15:05:02
【问题描述】:
到目前为止,这是我拥有的代码(它正在工作并按应有的方式提取文本。)
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("/home/nick/TAM_work/TAM_pdfs/2006-1.pdf").encode("ascii", "ignore")
我现在需要添加一个 for 循环以使其在 /TAM_pdfs 中的所有 PDF 上运行,将文本保存为 CSV 并(如果可能)添加一些内容来计算图片。任何帮助将不胜感激。感谢观看。
马特
【问题讨论】:
-
很抱歉缩进失败。
-
使用“代码块”按钮来格式化您的代码。 (每行添加四个空格)