【发布时间】:2015-06-28 00:01:35
【问题描述】:
我有一个 Visual Basic 程序,可以从 PDF 中提取文本并将文本导入 excel。它依赖于像人类一样阅读文本,从左到右阅读整个页面。但是,在这个特定的 PDF 中有一些实例,如果我用鼠标选择文本,我单击并直接拖动,但 Adobe 开始选择/突出显示上下行上的单词,然后继续在页面上突出显示。这给了我不想要/不需要的数据。该页面包含可呈现的文本,并且不是来自扫描的文档。
有没有办法“重置”Adobe 解释 PDF 文本的方式?由于左侧的信息与右侧的信息相距甚远,因此几乎将它们视为单独的列。
我尝试将 PDF 保存为不同的格式,例如 txt 或 postscript,然后提取为另一个 PDF,但它们似乎都产生了相同的结果。这对我来说很奇怪,因为我有其他类似的 PDF,这不是问题。
任何帮助或想法将不胜感激,谢谢。
【问题讨论】:
-
添加您迄今为止尝试过的代码