【发布时间】:2016-12-05 15:20:42
【问题描述】:
我正在尝试从布局不佳的 pdf(以下代码中的 URL)中抓取数据。我将需要使用有关表格线条/边框位置的信息来制作有意义的数据记录。
url="http://www.cmc.gv.ao/sites/main/pt/Lists/CMC%20%20PublicaesFicheiros/Attachments/89/Lista%20de%20Institui%C3%A7%C3%B5es%20Registadas%20(actualizado%2004.07.16).pdf"
import scraperwiki, urllib2, re
u = urllib2.urlopen(url)
xml=scraperwiki.pdftoxml(u.read()) # interpret pdf as xml
XML 的行并不表明表格行如何分解信息。典型的行如下所示:
<text top="678" left="493" width="103" height="12" font="6">Besa Património </text>
在我的浏览器的元素检查器中,HTML 稍微详细一些,但我仍然看不到有关表格行位置的信息。
我已经花了相当多的时间来解决这个问题,所以如果首先尝试任何推测性的答案,我将不胜感激。问题是,我如何获得表格线的位置?
【问题讨论】:
-
我主要担心的是它丢失了关于第一列如何将 39 条记录组合在一起的信息。将pdf转换成这种形式可能很有用,我可以通过Python输出带标签的pdf吗?
-
尝试从可重复的已知 PDF 结构中获取信息是可能的(也许),尝试从 any PDF 中获取信息几乎是不可能的,如果不是不可能的话。获取原始数据。
-
已知的 PDF 结构是什么意思?问题在于如何以编程形式表示 pdf 表格的行。
标签: html css regex python-2.7 pdf