【发布时间】:2018-12-11 16:36:43
【问题描述】:
我想通过 Gensim 使用来自电子报纸的新闻文本(pdf 格式)训练一个模型。从 pdf 文件中提取文本并处理准备好训练的文本的最佳方法是什么?有示例代码吗?
【问题讨论】:
标签: python-3.x nlp gensim
我想通过 Gensim 使用来自电子报纸的新闻文本(pdf 格式)训练一个模型。从 pdf 文件中提取文本并处理准备好训练的文本的最佳方法是什么?有示例代码吗?
【问题讨论】:
标签: python-3.x nlp gensim
您可以使用PyPDF2 逐页提取文本。最简单的代码如下所示:
import PyPDF2
reader = PyPDF2.PdfFileReader("your_file.pdf")
for page in reader.pages:
text = page.extractText()
# do something with text
【讨论】: