【发布时间】:2019-07-09 15:45:59
【问题描述】:
我想使用 Google Apps Spript 将不可搜索的 PDF 转换为可搜索的 PDF,其中文本覆盖在 PDF 上。
PDF 位于我的 Google 云端硬盘中,我不想将文件上传到其他网站或下载文件以进行转换。
我没有找到任何资源表明可以像 Adobe Acrobat 进行 OCR 转换一样覆盖文本。那么,是否甚至可以使用 GAS 进行覆盖?我只看到有人转换为文本或文档文件。
【问题讨论】:
-
为了正确了解您的情况,您能否提供一个不可搜索PDF的示例PDF文件?当然,请删除您的个人信息。
-
叠加是什么意思?您希望将可搜索的文本粘贴到不可搜索的文本之上吗?
-
例如,如果我截取这个网页的屏幕截图,并将屏幕截图保存为 PDF,它将是 PDF 中的图像。最初,PDF 是不可搜索的——当文档只是带有图像的 PDF 时,无法搜索“Is it possible to use Google Script to convert”字样。在 Acrobat 中,我可以运行 OCR,然后识别文本
-
关于叠加,当 Acrobat OCR 识别图像中的文本,然后在图像中的文本上应用一层文本(不可见但可以突出显示)时。
我找到了可以识别图像中的文本并将其导出到 Google Docs 的脚本,但这并没有使 PDF 成为可搜索的 PDF——我可以在其中搜索单词和在 PDF 中找到它。
标签: pdf google-apps-script ocr drive