【发布时间】:2022-12-09 08:12:52
【问题描述】:
我有一个 PDF 图像文件(例如“p1.pdf”——这是原始文档的扫描副本)保存在我的电脑上——这个文件看起来像这样(我添加了红线以显示区别):
我想将此 PDF 导入 R,并将其转换为“表格对象”。我试图通过关注这个tutorial(+ https://cran.r-project.org/web/packages/tesseract/vignettes/intro.html)来做到这一点:
library(tesseract)
library(magick)
library(png)
library(pdftools)
library(tidyverse)
pngfile <- pdftools::pdf_convert('p1.pdf', dpi = 600)
text <- tesseract::ocr(pngfile)
cat(text)
raw_img <- image_read(pngfile)
raw_img %>%
image_ocr()
这似乎奏效了——我继续按照教程进行操作:
num_only <- tesseract::tesseract(
options = list(tessedit_char_whitelist = c(".0123456789 "))
)
raw_img %>%
image_quantize(colorspace = 'gray') %>%
image_threshold() %>%
image_crop(geometry_area(100, 0, 600, 40)) %>%
ocr(engine = num_only)
combo <- tesseract::tesseract(
options = list(
tessedit_char_whitelist = paste0(
c(letters, LETTERS, " ", ".0123456789 (-)"), collapse = "")
))
raw_text <- raw_img %>%
image_quantize(colorspace = "gray") %>%
image_transparent("white", fuzz = 22) %>%
image_background("white") %>%
image_threshold() %>%
image_crop(geometry_area(0, 0, 110, 45)) %>%
ocr(engine = combo)
现在,我正在尝试将其转换为表格(“tibble”):
raw_tibble <- raw_text %>%
str_split(pattern = "\n") %>%
unlist() %>%
tibble(data = .)
# A tibble: 68 x 1
data
<chr>
1 "- ALPHABETICAL LISTING ABT"
2 "a PlaceYear of Reg"
3 "Name Address Graduation Year"
4 ""
5 "- (John Smith) BC ABC Uni~
6 ""
7 "Email: jsmith@gmail.com P"999-999-~
8 "BCC University 2002"
9 "- Jane Smith HGH Univer~
10 "Email janes@gmail.com "
# ... with 58 more rows
问题出在此处 - 有关进一步整理教程中结果的说明似乎非常针对教程中的示例(即与足球相关)。因此,我不能将它们应用于我的问题。 有人可以告诉我如何获取我的结果并将它们转换成看起来更接近原始 PDF 的表格吗?
也许有人可以尝试将我上传的图片另存为 png 文件,看看他们是否可以让这段代码工作?
谢谢!
注一:
- 因此,我只对“名称”和“地址”列感兴趣
- 我也对表格的最终格式有很大的灵活性持开放态度。例如“
401 Fake St Some City, Some State A1C B23 P: 555-555-5555 501 Fake St Some City, Some State A1C B23 p:666-666-6666 601 Fake St Some City, Some State A1C B23 p:666-666-6666”都可以显示为单行 - 这意味着在最终表中,2 组红线之间的所有“条目”都可以用 3 列和 1 行表示
因此,决赛桌可能看起来像这样:
id Name Address
1 1 (John Smith) Email:jsmith@gmail.com AB p:999-999-9999
2 2 Jane Smith Email:janes@gmail.com p:111-111-1111
3 3 Henry Smith 201 Fake St,Some City, Some State A1C B23 P:111-222-3333
4 4 Jason Smith 301 Fake St Some City,Some State A1C B23 P:555-555-5555
5 5 Luke Smith lsmith2@gmail.com 401 Fake St Some City, Some State A1C B23 P: 555-555-5555 501 Fake St Some City, Some State A1C B23 p:666-666-6666 601 Fake St Some City, Some State A1C B23 p:666-666-6666
Place_Year_Graduation Reg_Year
1 ABC University 2001, BCC University 2002,DEF University 2003 2000
2 HGH University/2001, Some Other School 2002 2000
3 University ABC 1999
4 Univer 123 2005
5 ABC College 2010
final = structure(list(id = 1:5, Name = c(" (John Smith) Email:jsmith@gmail.com",
"Jane Smith Email:janes@gmail.com", "Henry Smith", "Jason Smith",
"Luke Smith lsmith2@gmail.com"), Address = c("AB p:999-999-9999",
"p:111-111-1111", "201 Fake St,Some City, Some State A1C B23 P:111-222-3333",
"301 Fake St Some City,Some State A1C B23 P:555-555-5555", "401 Fake St Some City, Some State A1C B23 P: 555-555-5555 501 Fake St Some City, Some State A1C B23 p:666-666-6666 601 Fake St Some City, Some State A1C B23 p:666-666-6666"
), Place_Year_Graduation = c("ABC University 2001, BCC University 2002,DEF University 2003",
"HGH University/2001, Some Other School 2002", "University ABC",
"Univer 123", "ABC College"), Reg_Year = c(2000, 2000, 1999,
2005, 2010)), class = "data.frame", row.names = c(NA, -5L))
笔记2:我知道这是一个难题,R 可能不是解决这个问题的最佳工具——因此,我也愿意使用 Python 来解决这个问题。
【问题讨论】:
-
作为起点,如果您尝试
text <- pdftools::pdf_text('p1.pdf'),值得检查您得到的结果 - 许多 PDF 以表格格式存储文本,因此您可以跳过 OCR 步骤以获得更高的准确度读取。 -
@Paul:谢谢你的回答!当我尝试你的代码时,这就是我得到的:
-
对于单个文件,可以通过屏幕剪切和粘贴来避免为每个文件编写代码所花费的时间,因此对于名称
Name (John Smith) Email : jsmith@gmail.com Jane Smith Email: janes@gmail.com Henry Smith Jason Smith Luke Smith Ismith2@gmail.com,但是与所有 OCR 一样,存在错误,因此最后一个应该是lsmith,但因为它不在字典I smith对 OCR 更有意义每个 OCR 页面都需要人眼,因此最容易看到剪切和粘贴。 -
我玩过一出戏,但被难住了 - 综合挑战(多行单元格,无单元格边界)似乎使这变得非常棘手。我看到帖子建议
daiR可以让它工作,但我不能在我工作的地方使用该服务。您可以创建一个列边缘向量和一个行开始向量,并在每个单独的“单元格”上运行 OCR,但这对于大型表格来说似乎非常手动。magicK包可能会包含一些可以以编程方式检测列/行边缘的东西,但我还不够熟悉,无法弄清楚。对不起! -
@PaulStaffordAllen OCR 并不严格按行工作,除非以非常基本的术语指示它扫描一个像素然后扫描另一个像素直到它有一行然后向前和向下下一个像素行然后击中一条全白的线&假设它有一行一个时间字符匹配然后如果有空格假设它已经扫描了一个单词以在语言词典中查找如果字符是数字忘记任何数字安全的想法,不要依赖 OCR 发票/患者或其他日期数据关键条目。我离题了 在线转换为 PDF 通常很好transfer.sh/s5jgOU/a.pdf
标签: python r ocr tesseract data-manipulation