【问题标题】:How to find x,y location of a text in pdf如何在pdf中查找文本的x,y位置
【发布时间】:2011-06-12 00:40:09
【问题描述】:

是否有任何工具可以在 pdf 文件中的文本内容上查找 X-Y 位置?

【问题讨论】:

    标签: pdf text pdf-generation acrobat pdflib


    【解决方案1】:

    Docotic.Pdf Library 可以做到。请参阅下面的 C# 示例:

    using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
    {
        foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
            Console.WriteLine(textData.Position + " " + textData.Text);
    }
    

    【讨论】:

      【解决方案2】:

      TET,来自pdflib 系列产品的文本提取工具包可以做到这一点。 TET 有一个命令行界面,它是我所知道的所有文本提取工具中功能最强大的。 (它甚至可以处理连字...)

      几何
      TET 为文本提供精确的度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以被排除或包含在文本提取中,例如忽略页眉和页脚或边距。

      【讨论】:

        【解决方案3】:

        尝试在 Acrobat 中运行“预检...”并选择 PDF Analysis -> List page objects, grouped by type of object

        如果您在结果列表中找到文本对象,您会注意到Text Properties -> * Font 部分中有一个位置值(以磅为单位)。

        【讨论】:

        • 能找到每个单词的x,y位置和高宽吗?
        • @raki:位置在哪里,大小在正下方,但这仅适用于文本块,可以是任意文本。要获得单个字的大小,需要计算字体度量。你这样做的目的是什么,可能有更好的方法。
        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2018-05-09
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-05-15
        • 1970-01-01
        相关资源
        最近更新 更多