【问题标题】:Convert PDF to XML structure将 PDF 转换为 XML 结构
【发布时间】:2021-09-06 02:43:35
【问题描述】:

我想知道一种方法,如何通过用户将元素映射到特定 XML 结构来转换 PDF 文件。 我看了很多关于convert的视频或频道,但所有频道或视频都是关于商业程序的,并且具有特定的XML结构,我无法更改。我需要获得自己的 XML 结构。

有什么方法,如何实现这一点?我会使用哪种编程语言?

拜托,你能帮帮我吗?

【问题讨论】:

    标签: xml pdf converters


    【解决方案1】:

    首先,看看pdftohtml

    它可以选择将其转换为 xml。 它会给你类似的东西:

    <?xml version="1.0" encoding="UTF-8"?>
    <pdf2xml producer="poppler" version="0.87.0">
    <page number="1" position="absolute" top="0" left="0" height="1263" width="892">
        <fontspec id="0" size="18" family="TimesNewRomanPSMT" color="#000000"/>
        <fontspec id="4" size="14" family="ArialMT" color="#000000"/>
        <image top="53" left="129" width="251" height="65" src="document-1_1.jpg"/>
        <image top="1205" left="812" width="34" height="34" src="document-1_2.jpg"/>
        <text top="58" left="135" width="5" height="16" font="0"> </text>
        <text top="602" left="144" width="261" height="17" font="4">Ontbreken van het metadataveld ‘taal’; </text>
        <text top="622" left="135" width="362" height="14" font="4">- Foutief gebruik van tabellen voor lay-out doeleinden; </text>
        <text top="639" left="135" width="243" height="14" font="4">- Afbeeldingen zonder omschrijving; </text>
        <text top="656" left="135" width="9" height="14" font="4">- </text>
     </page>
     </pdf2xml>
    

    但就在那时,一切都开始了。 如何将其转化为有用的东西。因为 pdf 只是由文本片段组成。

    从中(重新)创建一个结构是一项挑战。

    【讨论】:

    • 感谢您提供非常有用的信息。我突然想到以不同的方式映射元素。我知道 PHP 会为我翻译这一切,仅此而已。有什么方法可以选择我会立即调用的特定区域吗?例如,作为截止日期等?
    • PHP?有意思,能具体点吗?你是怎么做到的,结果是什么?现在我不知道你想要什么。你需要更具体。也许通过在您的问题中添加一些示例来阐明您的需求……
    • 我想创建自己的系统,在其中映射将转换为特定 XML 结构的区域。我需要了解如何在 PDF 中标记特定区域?例如。 PDF中有一个日期,我会标记它并为其分配一个XML名称的元素。选择中的值被读取并粘贴到元素中。
    猜你喜欢
    • 2011-04-08
    • 1970-01-01
    • 2011-01-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-02-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多