【发布时间】:2015-05-02 00:57:31
【问题描述】:
我有几个使用 Microsoft Word 生成的 PDF。我想:
- 使用正则表达式在 PDF 文本中查找匹配项。
- 将匹配文本转换为指向外部 URL 的链接。
- 保存新版本的 PDF。
如果我在 HTML 中执行此操作,它将如下所示:
<!-- before: -->
This is the text to match.
<!-- after: -->
This is the text to <a href="http://www.match.com/" target="_blank">match</a>.
如何对 PDF 执行此操作?
我更喜欢 Python,但我对替代品持开放态度。
编辑:我无权访问原始 Word 文档。我需要自己操作 PDF。我正在寻找一种使用 Python PDF 库(或其他语言的类似库)的技术。
编辑 2: 我了解 PDF 的源代码不包含文字字符串。我想知道是否有一种方法可以执行以下操作:(1)提取文本,(2)查找匹配项,以及(3)对于每个匹配项,在原始 PDF 中文本的位置周围绘制一个可点击的框。我最接近的是 PyPDF2 的 addLink(),但这会在 PDF 中添加 internal 链接,而不是指向外部 URL 的链接。
【问题讨论】:
-
在原始 Word 文档中执行此操作可能会更好。例如,您的第一点“使用正则表达式在 PDF 文本中查找匹配项”已经不适合对 PDF 进行操作。
-
我无法访问原始 Word 文档。我只有 PDF。
-
我不“明白”为什么一些 SO 用户会否决这个问题并投票甚至关闭它。因为他们自己不知道答案?!?这个问题的潜在答案不太可能对该平台产生争议或负面影响。那为什么呢?
-
PDF 中的链接是注释。如果 1.5 年前的解决方案有效,即在您想要链接的地方添加突出显示注释,那么该代码只需要非常小的修改(尽管我现在正在看它,但我会重新编写它,但这是另一个故事)并且,真的,你没有太多的努力。您打算如何在不打开 PDF 参考的情况下使用 Python PDF 库?
标签: python regex string pdf text