【问题标题】:Datacap how to create a field array and merge or avoid splitted excel sheetsDatacap如何创建字段数组并合并或避免拆分excel表
【发布时间】:2018-12-28 20:45:33
【问题描述】:

我正在尝试获取 excel 文档的行。我所取得的成就。

1-。检索 .xls、.xlsx 文件
2-。将这些文件转换为 TIFF 图像
3-。增强图像以更好地识别文本
4-。识别页面
5-。创建文档
6-。识别页面和字段
7-。填充字段(这是我的问题)

例如,在像这样的表中

Name   | Age | Size
Juan   | 26  | 1.90m
Max    | 25  | 1.85m
Victor | 26  | 1.65m

我的项目可以找到关键字名称、年龄和大小,并且在设置中我可以告诉他,好的值是一行并将前导词和尾随词分组,但它只会填充字段名称、年龄和size 与下面的第一个值并会忽略其他值,并且 datacap 似乎没有字段数组类型。

在图片中可以看到添加字段的方式只有一种,而且是标量(只有一个值),添加多个只是一次添加多个字段,而不是多个值的字段哈哈。

这就是我的字段被检索到的方式

我面临的另一个问题是我的 excel 工作表被拆分以填充文档格式,我希望将整个工作表转换为 1 个文档而不是 4 个文档

在图片中,这 4 个页面来自同一张表(在 excel 中)

IBM 文档仍然缺少信息,有些页面只有标题和零信息,哈哈。

【问题讨论】:

    标签: excel data-capture ibm-datacap


    【解决方案1】:

    同意第 1 点,它不支持任何字段,如数组或更高级的东西。这个特性真的很需要,我们可能会看到 IBM 的一些东西。

    回到第二点,datacap 将根据打印页面转换 excel,就像您打印该 excel 时一样。您必须添加规则集才能将它们合并到单个文件中。最常见的方法是使用 datacap 提供的 tiffmerge ootb。

    【讨论】:

    • 嗨,我设法使用 SpireXLS C# 库创建了一个 Excel 文件,它允许我从 XLS 创建图像,我使用 C# 中的自定义操作解决了该库的问题,然后将生成的图像加载到Datacap,你是对的,它创建的 Excel 就像要打印一样。问题是它只适用于 Excel,对于 PDF,它们已经是打印格式,如果第二页是表格的一部分,以及它们是前导行还是前导列,很难知道表格的结束位置。
    • 我使用 FindTableValueRegex 解决了第一个问题,它让我找到一个 Header,然后是我想要的值,然后是另一个 Header,使用 Regex 提取数据。这样我意识到可以在字段中创建字段,因为它生成了类似 (Document > Page > row1 > name | age row2 > name | age) 行,名称和年龄是字段。
    • 酷。第一个问题已解决.. 对于您提到的 pdf 内容 - 必须使用 OCR,并且有一个示例项目(随 datacap 提供的应用程序)确实提到在表格拆分为 2 页的情况下使用 OCR/OMR。
    • 如果这个答案有用,请考虑打勾作为答案。谢谢
    • 我会试试看示例应用程序是否可以解决此类问题,我认为应该有某种类型的 AI 来解决这种模棱两可的情况,我们如何知道下一个除了我的最后一页之外,页面还有更多行或更多列,或者...当下一页有标题时,它是不同的表格还是最后一个表格的一部分?。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-05-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-03-26
    相关资源
    最近更新 更多