【问题标题】:Extract underlined text from pdf从pdf中提取带下划线的文本
【发布时间】:2019-04-25 03:57:04
【问题描述】:

我正在尝试从表格中的 PDF 中提取数据。我可以使用 pandas 提取数据并读取数据。

最近数据发生了变化,现在我想只提取那些在 PDF 表格中带下划线的值。表结构相同。但是要提取的数据已加下划线。bi 尝试了 OCR、tessaract 来提取数据,但没有成功,因为他们提取了所有数据。但我只需要带下划线的数据。

如果有帮助,下划线始终为红色。

我使用 Python 作为编程语言。

【问题讨论】:

  • 您是否尝试过查看表格?它可能会有所帮助

标签: python pandas pdf ocr


【解决方案1】:
for run in para.runs:
    if run.font.underline :
        underline.append(run.text)

【讨论】:

  • 给我发电子邮件 er.sawant@gmail.com 以防需要清晰的代码,因为我无法使用 stackflow 缩进加载
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-09-02
  • 2013-03-12
  • 2016-04-15
  • 2018-09-08
  • 1970-01-01
  • 2011-03-01
  • 2020-12-11
相关资源
最近更新 更多