【问题标题】:Export pdf to json将pdf导出为json
【发布时间】:2013-08-15 13:24:09
【问题描述】:

我有一个带有单词搜索方表的 pdf 文档。它看起来像这样:

我希望以某种方式将单词搜索网格中的所有单词导出为 xml 或 json 格式。是否有为此类任务构建的软件? 或者如何构建一个简单的脚本来做到这一点,有可能吗?

我使用单词搜索软件生成了这个网格,但它只能导出为 SVG 和 PDF。

我想要实现的是:对于每个单词,我想要网格中的起始坐标,也许还有结束坐标,或者单词的方向可能会很好。我能否以某种方式将这些东西导出到 json/xml 中

【问题讨论】:

    标签: xml json pdf svg export


    【解决方案1】:

    我原以为使用 SVG 版本的导出会是一种更简单的方法。运气好的话,单词列表将只是文件的一部分中组合在一起的<text> 元素列表。从那里编写一个小脚本将它们转换为 JSON 会很简单。

    【讨论】:

    • 是的,好点 :) 每个字母都有一个文本标签和 x 和 y 坐标。
    • 我检查了svg,因为它也是xml,但它似乎只是一堆标签。没注意字母。每个字母都有自己的一个屏幕宽的文本标签:)
    【解决方案2】:

    这可能会有所帮助,它只能在 windows 和 linux 上使用

    https://code.google.com/p/pdf2json/

    【讨论】:

    • 我试过 pdf2json -f -xmluzzle1.pfduzzle1.xml 我在同一个文件夹中看不到输出文件。我错过了什么?
    • 很高兴听到!我只用过几次,但如果您有任何问题,请告诉我
    • 它以像素为单位沿其 x、y 坐标导出每个单词。现在我必须编写一个脚本来将这些坐标转换为网格。如果没有其他答案,这可能是最好的,谢谢
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-01-09
    • 2019-05-14
    • 2020-12-01
    • 2014-01-09
    • 2014-04-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多