【问题标题】:Is it possible to use Google Script to convert a non-searchable PDF located in Google Drive into a searchable PDF?是否可以使用 Google Script 将位于 Google Drive 中的不可搜索的 PDF 转换为可搜索的 PDF?
【发布时间】:2019-07-09 15:45:59
【问题描述】:

我想使用 Google Apps Spript 将不可搜索的 PDF 转换为可搜索的 PDF,其中文本覆盖在 PDF 上。

PDF 位于我的 Google 云端硬盘中,我不想将文件上传到其他网站或下载文件以进行转换。

我没有找到任何资源表明可以像 Adob​​e Acrobat 进行 OCR 转换一样覆盖文本。那么,是否甚至可以使用 GAS 进行覆盖?我只看到有人转换为文本或文档文件。

【问题讨论】:

  • 为了正确了解您的情况,您能否提供一个不可搜索PDF的示例PDF文件?当然,请删除您的个人信息。
  • 叠加是什么意思?您希望将可搜索的文本粘贴到不可搜索的文本之上吗?
  • 例如,如果我截取这个网页的屏幕截图,并将屏幕截图保存为 PDF,它将是 PDF 中的图像。最初,PDF 是不可搜索的——当文档只是带有图像的 PDF 时,无法搜索“Is it possible to use Google Script to convert”字样。在 Acrobat 中,我可以运行 OCR,然后识别文本
  • 关于叠加,当 Acrobat OCR 识别图像中的文本,然后在图像中的文本上应用一层文本(不可见但可以突出显示)时。

    我找到了可以识别图像中的文本并将其导出到 Google Docs 的脚本,但这并没有使 PDF 成为可搜索的 PDF——我可以在其中搜索单词和在 PDF 中找到它。

标签: pdf google-apps-script ocr drive


【解决方案1】:

Google Drive 具有 OCR 识别功能,可让您在上传时将图像/不可搜索的 PDF 转换为 Google Docs 文件,它还具有导出功能,可让您将 Docs 文件导出为 PDF。但是,没有直接的转换方法,在 OCR 识别过程中格式会丢失。因此,无法创建带有覆盖的 PDF 文件。

最好的办法是通过 POST 或 GET 请求在 Apps 脚本中使用 UrlFetchApp.fetch() 调用外部 OCR API。您可以将该方法嵌入到一个函数中,该函数会自动迭代您所需的驱动器文件夹,查找所有 pdf 文件并使用它们的 URL 来调用外部 OCR API。

【讨论】:

  • 关于可以创建文本叠加层,这个答案似乎证实了目前不可能。所以使用 Acrobat 或类似程序是目前的方法。我的目标是让内容分析变得容易,因此搜索 PDF 并在 PDF 上添加 cmets 是覆盖文本的原因。如果 Google 将来开发这种能力,我们可以重新讨论这个话题。
猜你喜欢
  • 2020-11-16
  • 1970-01-01
  • 1970-01-01
  • 2019-01-27
  • 1970-01-01
  • 2015-03-02
  • 2019-05-09
  • 1970-01-01
  • 2012-02-24
相关资源
最近更新 更多