【问题标题】:How to extract data from pdf image file with the coordinates?如何从带有坐标的pdf图像文件中提取数据?
【发布时间】:2019-07-02 16:24:03
【问题描述】:

如何从坐标中的 PDF 图像文件中提取文本,使用 python 及其外部库。

from wand.image import Image as wi
from PIL import Image

pdf = wi (filename=("F:\cng-example-bill.pdf")
pdfImg = pdf.convert('jpg')
crop_img = pdfImg.crop((35, 20, 40, 35))
print(crop_imp)

试图将PDF文件转换为jpg文件的代码的sn-p, 从 jpg 尝试根据坐标提取数据。 程序应根据图像文件的坐标给出输出(数据)

【问题讨论】:

    标签: python-3.x python-imaging-library wand


    【解决方案1】:

    pdf.convert('jpg') 行只是克隆堆栈,并设置格式属性。 pdfImg.crop 成功返回 True,并且不返回任何数据。您也许可以将 sn-p 重写为...

    from wand.image import Image as wi
    
    pdf = wi(filename=("F:\cng-example-bill.pdf[0]")
    pdf.crop(left=35, top=20, width=40, height=35)
    crop_img = pdf.make_blob('jpg')
    

    注意"F:\cng-example-bill.pdf[0]"只解码PDF的第一页,裁剪区域是40x35+35+20区域。 crop_img 是 JPG 文件数据,不是像素数据或 pdf 文本数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-01-04
      • 1970-01-01
      • 2014-05-18
      • 1970-01-01
      • 1970-01-01
      • 2019-04-01
      • 1970-01-01
      相关资源
      最近更新 更多