【发布时间】:2021-09-06 02:43:35
【问题描述】:
我想知道一种方法,如何通过用户将元素映射到特定 XML 结构来转换 PDF 文件。 我看了很多关于convert的视频或频道,但所有频道或视频都是关于商业程序的,并且具有特定的XML结构,我无法更改。我需要获得自己的 XML 结构。
有什么方法,如何实现这一点?我会使用哪种编程语言?
拜托,你能帮帮我吗?
【问题讨论】:
标签: xml pdf converters
我想知道一种方法,如何通过用户将元素映射到特定 XML 结构来转换 PDF 文件。 我看了很多关于convert的视频或频道,但所有频道或视频都是关于商业程序的,并且具有特定的XML结构,我无法更改。我需要获得自己的 XML 结构。
有什么方法,如何实现这一点?我会使用哪种编程语言?
拜托,你能帮帮我吗?
【问题讨论】:
标签: xml pdf converters
首先,看看pdftohtml
它可以选择将其转换为 xml。 它会给你类似的东西:
<?xml version="1.0" encoding="UTF-8"?>
<pdf2xml producer="poppler" version="0.87.0">
<page number="1" position="absolute" top="0" left="0" height="1263" width="892">
<fontspec id="0" size="18" family="TimesNewRomanPSMT" color="#000000"/>
<fontspec id="4" size="14" family="ArialMT" color="#000000"/>
<image top="53" left="129" width="251" height="65" src="document-1_1.jpg"/>
<image top="1205" left="812" width="34" height="34" src="document-1_2.jpg"/>
<text top="58" left="135" width="5" height="16" font="0"> </text>
<text top="602" left="144" width="261" height="17" font="4">Ontbreken van het metadataveld ‘taal’; </text>
<text top="622" left="135" width="362" height="14" font="4">- Foutief gebruik van tabellen voor lay-out doeleinden; </text>
<text top="639" left="135" width="243" height="14" font="4">- Afbeeldingen zonder omschrijving; </text>
<text top="656" left="135" width="9" height="14" font="4">- </text>
</page>
</pdf2xml>
但就在那时,一切都开始了。 如何将其转化为有用的东西。因为 pdf 只是由文本片段组成。
从中(重新)创建一个结构是一项挑战。
【讨论】: