使用 iTextSharp 从 PDF 中提取盲文文本（图像）答案

【问题标题】：Extract Braille text (image) from PDF using iTextSharp使用 iTextSharp 从 PDF 中提取盲文文本（图像）
【发布时间】：2011-08-07 11:04:53
【问题描述】：

盲文是盲人专用的字体。我正在尝试解码 PDF 文件中以盲文字体编写的文本并输出普通文本。但 PDFTextExtractor（在 iTextSharp 中）无法处理此字体。有没有其他办法？

我想弄清楚如何从 pdf 文件中解码。

我试过用，

PdfReader pdf = new PdfReader("C:\\pdfs\\file.pdf");
string text = PdfTextExtractor.GetTextFromPage(pdf, 1);

this.brailleTextBox.Text = text.ToString();
this.normalTextBox.Text = text.ToString();

在具有常规字体（例如 Arial）和盲文字体的文本的 pdf 文件上，但它不返回盲文文本，而是仅返回页面上的普通文本。

如何使用 iTextSharp 获取盲文字体文本。

【问题讨论】：

你能发一个示例文件让我们看看吗？
另外，您可以在 Adobe Acrobat 中选择“文本”吗？如果你复制它，它会以文本形式出现吗？
我找到了免费的盲文字体并且它被正确选择了。但是这些字体对于不同的母语是不同的，这让我麻烦了 2 次。现在盲文字符必须通过图像处理来解密。盲文样本 pdf dl.dropbox.com/u/18670740/…

标签： pdf itextsharp extract itext braille

【解决方案1】：

（还没有答案）

好吧，也许我没有正确理解。我刚刚尝试在您提供的 PDF 上使用 PdfTextExtractor，它工作正常。具体来说，第 1 页的以下文本被踢出：

B   r    a   i     l    l    e   C   o   d    e   s 
B r a i l l e C o d e s 

Embossed dot positions as,   


A  B   C   D   E   F   G  H   I    J   K  
A B C D E F G H I J K 
L    M  N  O   P  Q   R  S   T   U   V  
L M N O P Q R S T U V 
W  X   Y   Z 
W X Y Z 


1   2   3    4   5   6    7   8   9   0 
1 2 3 4 5 6 7 8 9 0

如果我误解了你，我深表歉意，但你是否试图将文本恢复为盲文？

【讨论】：

这些 '{', '(', '[' 的盲文字符是相同的，同样对于 ']','}',',']' 。所以，如果我的字体（或您）安装的字体并不是所有可能表示形式的最佳字体，而不是不可能完美地翻译它。
我真的很抱歉，但我仍然不确定您现在的实际问题是什么。文字就是文字——总是。字体采用称为字形的特定方式（草书、盲文、符号等）显示文本。标准盲文系统本身不区分大括号和方括号（据我所知），并且为它们绘制相同的字形。在这些字形背后，真正的文字仍然存在。如果有人将字形转换为静态图像，那么文本将会丢失，否则它会一直存在。