【发布时间】:2018-05-26 02:27:28
【问题描述】:
如何使用 Spire.PDF 阅读 pdf 文件并将内容保存到文本文件? 例如:这是pdf file,这是来自该pdf的desired text file
我尝试使用以下代码读取文件并将其保存到文本文件中
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(@"C:\Users\Tamal\Desktop\101395a.pdf");
StringBuilder buffer = new StringBuilder();
foreach (PdfPageBase page in doc.Pages)
{
buffer.Append(page.ExtractText());
}
doc.Close();
String fileName = @"C:\Users\Tamal\Desktop\101395a.txt";
File.WriteAllText(fileName, buffer.ToString());
System.Diagnostics.Process.Start(fileName);
但是output text file 的格式不正确。它有不必要的空格,并且一个完整的 para 被分成多行等。
如何在所需的文本文件中获得所需的结果?
此外,是否也可以检测和标记(如添加标签)粗体、斜体或下划线形式的文本?此外,对于具有多列文本的页面来说,问题也会更加严重。
【问题讨论】:
-
您正在共享问题中现有人员的个人数据(姓名和电子邮件地址)。请避免这样做,除非您得到这些人的明确同意才能使用这些数据。
-
正如@Tamias 也指出的那样,PDF 文件中的文本可能或同样可能无法以这种方式提取。如果您想要在大多数情况下工作的东西,您应该寻找 OCR。