【发布时间】:2015-02-28 21:44:39
【问题描述】:
我有一个包含几个超链接的 PDF 文档,我需要从 pdf 中提取所有文本。 我使用了 PDFMiner 库和来自http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/ 的代码来提取文本。但是,它不会提取超链接。
例如,我的文字是Check this link out,并附有一个链接。我能够提取单词Check this link out,但我真正需要的是超链接本身,而不是单词。
我该怎么做呢?理想情况下,我更愿意用 Python 来做,但我也愿意用任何其他语言来做。
我看过itextsharp,但没用过。我在Ubuntu 上运行,希望能提供任何帮助。
【问题讨论】:
标签: python pdf hyperlink pypdf pdfminer