【发布时间】:2013-12-29 16:26:20
【问题描述】:
我正在尝试使用 iTextSharp 库将 PDF 中的文本读入字符串。
iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(@"C:\mypdf.pdf");
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy);
text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
pdfReader.Close();
Console.WriteLine(text);
这通常可以正常工作,但每隔几行就会省略空格,给我留下如下输出:“thisismyoutputwithoutwhitespace”。正确解析的文本似乎与未正确解析的文本相同;相同的文本将始终被错误地解析,这让我认为这是 PDF 中的内容。
【问题讨论】: