是否可以使用 Google Script 将位于 Google Drive 中的不可搜索的 PDF 转换为可搜索的 PDF？答案

【问题标题】：Is it possible to use Google Script to convert a non-searchable PDF located in Google Drive into a searchable PDF?是否可以使用 Google Script 将位于 Google Drive 中的不可搜索的 PDF 转换为可搜索的 PDF？
【发布时间】：2019-07-09 15:45:59
【问题描述】：

我想使用 Google Apps Spript 将不可搜索的 PDF 转换为可搜索的 PDF，其中文本覆盖在 PDF 上。

PDF 位于我的 Google 云端硬盘中，我不想将文件上传到其他网站或下载文件以进行转换。

我没有找到任何资源表明可以像 Adobe Acrobat 进行 OCR 转换一样覆盖文本。那么，是否甚至可以使用 GAS 进行覆盖？我只看到有人转换为文本或文档文件。

【问题讨论】：

为了正确了解您的情况，您能否提供一个不可搜索PDF的示例PDF文件？当然，请删除您的个人信息。
叠加是什么意思？您希望将可搜索的文本粘贴到不可搜索的文本之上吗？
例如，如果我截取这个网页的屏幕截图，并将屏幕截图保存为 PDF，它将是 PDF 中的图像。最初，PDF 是不可搜索的——当文档只是带有图像的 PDF 时，无法搜索“Is it possible to use Google Script to convert”字样。在 Acrobat 中，我可以运行 OCR，然后识别文本
关于叠加，当 Acrobat OCR 识别图像中的文本，然后在图像中的文本上应用一层文本（不可见但可以突出显示）时。

我找到了可以识别图像中的文本并将其导出到 Google Docs 的脚本，但这并没有使 PDF 成为可搜索的 PDF——我可以在其中搜索单词和在 PDF 中找到它。

标签： pdf google-apps-script ocr drive

【解决方案1】：

Google Drive 具有 OCR 识别功能，可让您在上传时将图像/不可搜索的 PDF 转换为 Google Docs 文件，它还具有导出功能，可让您将 Docs 文件导出为 PDF。但是，没有直接的转换方法，在 OCR 识别过程中格式会丢失。因此，无法创建带有覆盖的 PDF 文件。

最好的办法是通过 POST 或 GET 请求在 Apps 脚本中使用 UrlFetchApp.fetch() 调用外部 OCR API。您可以将该方法嵌入到一个函数中，该函数会自动迭代您所需的驱动器文件夹，查找所有 pdf 文件并使用它们的 URL 来调用外部 OCR API。

【讨论】：

关于可以创建文本叠加层，这个答案似乎证实了目前不可能。所以使用 Acrobat 或类似程序是目前的方法。我的目标是让内容分析变得容易，因此搜索 PDF 并在 PDF 上添加 cmets 是覆盖文本的原因。如果 Google 将来开发这种能力，我们可以重新讨论这个话题。