【发布时间】:2016-04-18 07:28:25
【问题描述】:
我有一个 pdf 文件,我无法从中提取文本 - 使用 itextsharp api。
一些数字被其他数字或反斜杠替换:“//”
pdf 文件最初来自 MS Word,并使用“另存为 pdf”导出为 pdf,我必须使用 pdf 文件而不是 Doc。
当您尝试从文件中复制和粘贴一些数字时,您可以非常清楚地看到问题 例如 - 如果您尝试在底部复制并粘贴一个 6 位数字,您会看到它从 201333 更改为 333222。
您还可以看到日期字符串的问题:11/4/2016 变成 // // 11110
当我在我的电脑上使用 adobe Pdf 转换器打印机打印 pdf 文件时,它得到了修复,但我需要自动修复它,例如使用 C#
谢谢
文件在此处共享: https://www.dropbox.com/s/j6w9350oyit0od8/OnePageGili.pdf?dl=0
【问题讨论】:
-
请检查您的 PDF 并检查它是否像 answered here 那样的问题。如果您无法检查自己,请分享您的 PDF 以供分析。
标签: c# pdf text itextsharp extract