【发布时间】:2011-12-09 08:35:33
【问题描述】:
如何使用 iText5 for .NET 阅读 PDF 文件 line by line?
我已经通过互联网搜索,但我只发现阅读每页内容的 PDF 文件。
请看下面的代码。
public string ReadPdfFile(object Filename)
{
string strText = string.Empty;
try
{
PdfReader reader = new PdfReader((string)Filename);
for (int page = 1; page <= reader.NumberOfPages; page++)
{
ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy();
String s = PdfTextExtractor.GetTextFromPage(reader, page, its);
s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
strText = strText + s;
}
reader.Close();
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
return strText;
}
【问题讨论】:
-
我认为这很难,因为pdf中没有明确的换行符
-
有没有办法把pdf的文本内容转换成图片文件?有可能吗??
-
尝试搜索“PDF 2 IMAGE”,有很多组件。但是为什么只将文本转换为图像?图片呢?而且..如果您已经有文字,您可以自己创建图像。
-
我有一个显示 pdf 内容(扫描图像)的应用程序。但不知何故,它在加载带有矢量内容的 pdf 文件时会引发错误。这就是为什么我需要先将其转换为图像内容,然后再将其加载到我的应用程序中。
-
iText 是面向文档生成的。它的操作能力似乎在页面级别受到限制。你最好寻找其他解决方案。