【问题标题】:How to get chars/words/lines/blocks coordinates如何获取字符/单词/行/块坐标
【发布时间】:2018-10-16 07:48:35
【问题描述】:

我正在做 pdftotext -bbox file.pdf 并产生字级输出。 有没有办法在字符/短语/行/块级别上输出坐标?

我很想知道 poppler 或 xpdf 版本的 pdftotext 是否可以做到这一点。

【问题讨论】:

    标签: text-extraction pdftotext poppler pdf-scraping xpdf


    【解决方案1】:

    当然,只需使用pdftotext -bbox-layout,它就会为您提供所需的结构。

    【讨论】:

    • 但即使 pdf 有多个页面,“pdftotext -bbox-layout”也只提供第一页的布局。有什么方法可以为所有页​​面获取它?
    猜你喜欢
    • 1970-01-01
    • 2014-04-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-05
    • 2021-03-30
    • 1970-01-01
    相关资源
    最近更新 更多