从 pdf 文件中提取文本以使用 Gensim 构建模型

【问题标题】：Extracting texts from pdf files for building a model with Gensim从 pdf 文件中提取文本以使用 Gensim 构建模型
【发布时间】：2018-12-11 16:36:43
【问题描述】：

我想通过 Gensim 使用来自电子报纸的新闻文本（pdf 格式）训练一个模型。从 pdf 文件中提取文本并处理准备好训练的文本的最佳方法是什么？有示例代码吗？

【问题讨论】：

【解决方案1】：

您可以使用PyPDF2 逐页提取文本。最简单的代码如下所示：

import PyPDF2

reader = PyPDF2.PdfFileReader("your_file.pdf")

for page in reader.pages:
    text = page.extractText()
    # do something with text

【讨论】：