【问题标题】:Automating the extraction of text from images自动从图像中提取文本
【发布时间】:2020-07-06 16:16:13
【问题描述】:

我在 AWS S3 存储桶中有 500 个文件夹。在每个文件夹中,有 2 到 3 张图像。如何在每个图像上应用 Textract 并使用节点 js 提取完整的文本(所有文本连接)?我编写了以下代码来获取 S3 对象:

const aws = require('aws-sdk');
const config = require('./config.js');
(async function(){
    aws.config.setPromisesDependency();
    try{
        aws.config.update({
            accessKeyId: config.accessKeyId,
            secretAccessKey: config.secretAccessKey,
            region: config.awsRegion
        });
        const s3 = new aws.S3();
        const response = await s3.listObjectsV2({
            Bucket : '<Bucket Name>',
            Prefix : '<Prefix>'

        }).promise();
        console.log(response);
    }
    catch(e)
    {
        console.log('our err.',e);
    }
    
})();

如何循环浏览其中的子文件夹和图像?

【问题讨论】:

    标签: javascript node.js amazon-web-services machine-learning text-extraction


    【解决方案1】:

    您可以:

    • 使用 S3 API 列出并循环遍历所有图像,为每个图像应用文本提取
    • 使用 S3 清单遍历所有图像并执行相同操作

    对于新文件,您可以设置 Lambda 函数和 S3 PUT 触发器以自动将文本检测应用于新文件。

    【讨论】:

    • 我已经编辑了我的问题以更新我所做的事情。我该如何前进?
    • 使用S3.listObjectV2的结果,然后对每个对象使用Textract.detectDocumentText
    猜你喜欢
    • 2014-07-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多