【问题标题】:Extracting texts from pdf files for building a model with Gensim从 pdf 文件中提取文本以使用 Gensim 构建模型
【发布时间】:2018-12-11 16:36:43
【问题描述】:

我想通过 Gensim 使用来自电子报纸的新闻文本(pdf 格式)训练一个模型。从 pdf 文件中提取文本并处理准备好训练的文本的最佳方法是什么?有示例代码吗?

【问题讨论】:

    标签: python-3.x nlp gensim


    【解决方案1】:

    您可以使用PyPDF2 逐页提取文本。最简单的代码如下所示:

    import PyPDF2
    
    reader = PyPDF2.PdfFileReader("your_file.pdf")
    
    for page in reader.pages:
        text = page.extractText()
        # do something with text
    

    【讨论】:

      猜你喜欢
      • 2012-12-30
      • 1970-01-01
      • 1970-01-01
      • 2011-04-30
      • 1970-01-01
      • 1970-01-01
      • 2011-05-01
      • 1970-01-01
      • 2013-06-29
      相关资源
      最近更新 更多