【发布时间】:2020-03-09 15:58:15
【问题描述】:
我正在研究一个工作流程,以从一堆缩微胶卷报纸中创建 PDF 可搜索文件和已识别文本的 txt 文件。每卷有近 500 张图片,如下所示:
我正在做的是:
- 使用 ScanTailor 高级处理每个卷筒,以便裁剪图像、分离奇数页和偶数页、添加边距并为每页输出 tiff 文件,获得此功能
然后,手动删除所有实际上不是报纸的页面(如滚动开始、滚动结束、建议和其他元图片)。
-
然后,将一份报刊的tif文件合并到一个文件中。例如,该特定报纸每个版本有 4 页。我使用 automator 和 Imagemagick 编写了一个 shell 服务,它接收来自 finder 的文件选择作为输入:
对于“$@”中的 f
做
/usr/local/opt/imagemagick@6/bin/convert -format tiff -quality 75 -set filename:original '%t' -compress jpeg "$@" -adjoin ~/Pictures/Microfilms/ediciones_%[文件名:原始].tif
回显“$f” 完成
这里是我需要帮助的地方:
在我的无知中,我不得不使用 -set filename:original '%t' 以避免文件覆盖,因为 IM 无法将文件 (-adjoin) 与输出文件名 %escape 合并(例如 %02d )。这没问题,但不是理想的。
如何 cd 到输入文件的父文件夹?
ScanTailor的输出文件夹有近1000个文件,我需要处理67个文件夹。因此,您可以想象选择每个报纸版本的每 4 页并手动执行该过程...那么 我如何告诉 automator 获取每 4 个(或 n 个)文件并使用它们执行转换命令? , 并不是所有的报纸每个版本都有 4 页,所以最好的解决方案是询问用户有多少页(文件)有报纸版本。在这种情况下,我可以处理整个文件夹并让计算机通宵工作。
最后,我使用 Tesseract 处理多页 tif 以输出可搜索的 pdf 和纯文本 (.txt)。这里我需要将 tesseract 进程添加到 automator,告诉 automator 处理合并的 tif 文件夹的所有文件(IM 进程的输出),首先使用 PDF 选项,然后使用 TXT 选项。
提前致谢
【问题讨论】:
-
压缩 jpeg 选项会破坏您的所有工作。不要使用有损压缩,尤其是在 1 位图片上。
-
它们不是 1bit 图像,您可以看到它们是 8bit 灰度
-
如果您想要清晰可读的文本和较小的 PDF 大小,请在 ScanTailor 之后以黑白 1 位 TIFF G4 FAX(或 JBIG)保存。 Jpeg 压缩适用于半色调照片,而不适用于报纸。如果你想要一个不可读、模糊的文本 - 使用 JPEG。
-
使用 scantailor 或 imagemagick 转换为 1bit 的所有类型对于阅读报纸都没有用处。看到图片了吗?
标签: pdf imagemagick ocr tesseract automator