【问题标题】:Best tool for finding text location from .PDF or .DOCX in Python 3.4在 Python 3.4 中从 .PDF 或 .DOCX 查找文本位置的最佳工具
【发布时间】:2017-06-26 16:07:18
【问题描述】:

我目前正在处理一个项目,我必须在字符串“评论”下的 PDF 文件上放置数字签名(.JPG 文件)。

我希望能够以某种方式找到字符串“评论”的坐标或位置,然后最好将该 signature.jpg 放在其下方几个坐标。

最初,该文件是 (.doc) 而不是 (.pdf)。首先在 (.doc) 上找到字符串“评论”的位置然后将其转换为 (.PDF) 会更容易吗?如果是这样,我将如何在 Python 中的(.doc)文件上找到“评论”的位置?

谢谢

【问题讨论】:

    标签: string python-3.x pdf docx text-extraction


    【解决方案1】:

    这是一个非常棘手的问题。您要问的不仅仅是文本搜索 - 那部分会相对容易。但是要找到页面位置,您必须从字符串返回到容器,它可能是分层嵌套的 - 就像一组嵌套的 html 元素 - 并计算位置,然后将您的 sig 文件添加到指定位置在此之下。

    指定签名的位置会容易得多 - 也许让您的文具在空白处为签名保留一个位置,您知道坐标。

    至于 doc 选项 - 我认为它是同样的问题,但另一种疯狂的文件格式。

    【讨论】:

    • 问题是,每个文档在页面上的不同位置都有签名行。但是,正如我所说,它始终位于“评论”一词的下方。我真的很想想办法。它也总是页面上的最后一件事,所以也许有办法找到从页边距底部到 docx 上最后一个单词的距离?
    • 我完全明白你想要什么以及实现它的问题。老实说,以任何有用和强大的方式直接执行它都不是一件容易的事。我会查看 python pdf 库并查看它们提供的选项。也许有人已经提供了您需要的 4 样东西:1) 查找字符串,2) 给出位置,3) 在“下方”位置插入图像,4) 保存文件。
    • 我发现了一些东西,可以让我在 docx 文件中找到字符串的索引。但我不确定如何将其翻译为特定位置。
    • 这只是问题的一小部分。您需要通过渲染算法来确定该文本的坐标和大小,然后将您的图像添加到“附近”坐标的流中。这是一个非常复杂的问题。我知道从表面上看应该很容易,但事实并非如此。对不起。
    猜你喜欢
    • 2015-12-16
    • 2018-05-09
    • 2017-07-24
    • 1970-01-01
    • 2011-06-12
    • 1970-01-01
    • 2018-02-19
    • 2013-05-27
    • 1970-01-01
    相关资源
    最近更新 更多