Datacap如何创建字段数组并合并或避免拆分excel表答案

【问题标题】：Datacap how to create a field array and merge or avoid splitted excel sheetsDatacap如何创建字段数组并合并或避免拆分excel表
【发布时间】：2018-12-28 20:45:33
【问题描述】：

我正在尝试获取 excel 文档的行。我所取得的成就。

1-。检索 .xls、.xlsx 文件
2-。将这些文件转换为 TIFF 图像
3-。增强图像以更好地识别文本
4-。识别页面
5-。创建文档
6-。识别页面和字段
7-。填充字段（这是我的问题）

例如，在像这样的表中

Name   | Age | Size
Juan   | 26  | 1.90m
Max    | 25  | 1.85m
Victor | 26  | 1.65m

我的项目可以找到关键字名称、年龄和大小，并且在设置中我可以告诉他，好的值是一行并将前导词和尾随词分组，但它只会填充字段名称、年龄和size 与下面的第一个值并会忽略其他值，并且 datacap 似乎没有字段数组类型。

在图片中可以看到添加字段的方式只有一种，而且是标量（只有一个值），添加多个只是一次添加多个字段，而不是多个值的字段哈哈。

这就是我的字段被检索到的方式

我面临的另一个问题是我的 excel 工作表被拆分以填充文档格式，我希望将整个工作表转换为 1 个文档而不是 4 个文档

在图片中，这 4 个页面来自同一张表（在 excel 中）

IBM 文档仍然缺少信息，有些页面只有标题和零信息，哈哈。

【问题讨论】：

标签： excel data-capture ibm-datacap

【解决方案1】：

同意第 1 点，它不支持任何字段，如数组或更高级的东西。这个特性真的很需要，我们可能会看到 IBM 的一些东西。

回到第二点，datacap 将根据打印页面转换 excel，就像您打印该 excel 时一样。您必须添加规则集才能将它们合并到单个文件中。最常见的方法是使用 datacap 提供的 tiffmerge ootb。

【讨论】：

嗨，我设法使用 SpireXLS C# 库创建了一个 Excel 文件，它允许我从 XLS 创建图像，我使用 C# 中的自定义操作解决了该库的问题，然后将生成的图像加载到Datacap，你是对的，它创建的 Excel 就像要打印一样。问题是它只适用于 Excel，对于 PDF，它们已经是打印格式，如果第二页是表格的一部分，以及它们是前导行还是前导列，很难知道表格的结束位置。
我使用 FindTableValueRegex 解决了第一个问题，它让我找到一个 Header，然后是我想要的值，然后是另一个 Header，使用 Regex 提取数据。这样我意识到可以在字段中创建字段，因为它生成了类似 (Document > Page > row1 > name | age row2 > name | age) 行，名称和年龄是字段。
酷。第一个问题已解决.. 对于您提到的 pdf 内容 - 必须使用 OCR，并且有一个示例项目（随 datacap 提供的应用程序）确实提到在表格拆分为 2 页的情况下使用 OCR/OMR。
如果这个答案有用，请考虑打勾作为答案。谢谢
我会试试看示例应用程序是否可以解决此类问题，我认为应该有某种类型的 AI 来解决这种模棱两可的情况，我们如何知道下一个除了我的最后一页之外，页面还有更多行或更多列，或者...当下一页有标题时，它是不同的表格还是最后一个表格的一部分？。