【发布时间】:2010-12-23 08:06:14
【问题描述】:
我正在寻找可以让我从 PDF 文档中提取文本的 PDF 库。我看过 PyPDF,它可以很好地从 PDF 文档中提取文本。这样做的问题是,如果文档中有表格,表格中的文本将与文档的其余部分一起被提取。这可能会产生问题,因为它会生成无用且看起来乱码的文本部分(例如,大量数字混在一起)。
我想从 PDF 文档中提取文本,排除任何表格和特殊格式。有没有图书馆可以做到这一点?
【问题讨论】:
标签: python pdf parsing text-extraction information-extraction