自动从图像中提取文本答案

【问题标题】：Automating the extraction of text from images自动从图像中提取文本
【发布时间】：2020-07-06 16:16:13
【问题描述】：

我在 AWS S3 存储桶中有 500 个文件夹。在每个文件夹中，有 2 到 3 张图像。如何在每个图像上应用 Textract 并使用节点 js 提取完整的文本（所有文本连接）？我编写了以下代码来获取 S3 对象：

const aws = require('aws-sdk');
const config = require('./config.js');
(async function(){
    aws.config.setPromisesDependency();
    try{
        aws.config.update({
            accessKeyId: config.accessKeyId,
            secretAccessKey: config.secretAccessKey,
            region: config.awsRegion
        });
        const s3 = new aws.S3();
        const response = await s3.listObjectsV2({
            Bucket : '<Bucket Name>',
            Prefix : '<Prefix>'

        }).promise();
        console.log(response);
    }
    catch(e)
    {
        console.log('our err.',e);
    }
    
})();

如何循环浏览其中的子文件夹和图像？

【问题讨论】：

标签： javascript node.js amazon-web-services machine-learning text-extraction

【解决方案1】：

您可以：

使用 S3 API 列出并循环遍历所有图像，为每个图像应用文本提取
使用 S3 清单遍历所有图像并执行相同操作

对于新文件，您可以设置 Lambda 函数和 S3 PUT 触发器以自动将文本检测应用于新文件。

【讨论】：

我已经编辑了我的问题以更新我所做的事情。我该如何前进？
使用S3.listObjectV2的结果，然后对每个对象使用Textract.detectDocumentText。