【发布时间】:2019-05-20 00:24:12
【问题描述】:
我注意到 Google Vision PDF OCR DOCUMENT_TEXT_DETECTION 需要大约 15 秒才能检测到单个 PDF 页面 https://cloud.google.com/vision/docs/pdf。
但是如果我提交与 JPG 相同的 PDF 页面,检测文本只需不到 3 秒https://cloud.google.com/vision/docs/detecting-fulltext
我使用了这里提供的代码 (C#)https://cloud.google.com/vision/docs/pdf#vision-pdf-detection-gcs-csharp
我注意到下面的代码行大约需要 15 秒才能检测到 PDF 中的所有文本并将其保存到 gsBucket
operation.PollUntilCompleted();
- 我的 GsBucket 是美国“多区域存储”
- 我也是从美国位置上传的
我想知道我还能做些什么来加快这个过程或者这是预期的?
【问题讨论】:
-
将 PDF 转换为 JPEG 需要多长时间?这可能就是它在后台所做的事情。
-
可能,我只是将 PDF 转换为 JPEG 大约需要 1-2 秒。
-
它可能完成得比这更快 - 毕竟,
PollUntilCompleted会进行 poll。您可以指定更频繁的PollSettings来检查。 -
我将时间间隔更改为 1 秒,但仍然没有区别,尽管如此。我正在上传 PDF,然后等待将文本检测结果保存回我的存储桶中。我上传的文件的“上次修改时间”时间戳与 Google 保存的文件之间的差异也显示了 ~15 秒的差异
-
可能涉及到一些内部调度。不过,我 99% 确信您会在其他客户端库中获得相同的结果 - 除了这里的轮询之外,我们并没有做太多事情。你可能想问groups.google.com/forum/#!forum/cloud-vision-discuss...
标签: c# asp.net google-cloud-platform google-api google-vision