【发布时间】:2019-11-27 02:40:43
【问题描述】:
我正在尝试在一组 pdf 文件上运行 LDA,以访问这些文件中的主要主题。我可以使用 pdfminer 从 pdf 中提取数据。
问题1:但问题是pdf中的图表和图像的标题和描述对我没有用。如何从 pdf 中删除不需要的部分。
问题 2:在我运行 LDA 模型之前,我想从文本中删除所有换行符和标点符号。
我用来提取数据的代码如下:
from pdfminer import .layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LTTextBoxHorizontal
from pdfminer.layout import LTFigure
from pdfminer.pdfinterp import PDFPageInterpreter
import gensim
from gensim import corpora
from pprint import pprint
document = open('C:/Users/kaurj/Desktop/File1.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(document):
interpreter.process_page(page)
layout = device.get_result()
for element in layout:
if isinstance(element, LTTextBoxHorizontal):
values = element.get_text()
print (values)
代码中用到的File1嵌入在这里:-
【问题讨论】:
-
请发布您尝试过的代码和错误。
标签: python pdf text-extraction