【问题标题】:Extract Braille text (image) from PDF using iTextSharp使用 iTextSharp 从 PDF 中提取盲文文本(图像)
【发布时间】:2011-08-07 11:04:53
【问题描述】:

盲文是盲人专用的字体。我正在尝试解码 PDF 文件中以盲文字体编写的文本并输出普通文本。但 PDFTextExtractor(在 iTextSharp 中)无法处理此字体。有没有其他办法?

我想弄清楚如何从 pdf 文件中解码。

我试过用,

PdfReader pdf = new PdfReader("C:\\pdfs\\file.pdf");
string text = PdfTextExtractor.GetTextFromPage(pdf, 1);

this.brailleTextBox.Text = text.ToString();
this.normalTextBox.Text = text.ToString();

在具有常规字体(例如 Arial)和盲文字体的文本的 pdf 文件上,但它不返回盲文文本,而是仅返回页面上的普通文本。

如何使用 iTextSharp 获取盲文字体文本。

【问题讨论】:

  • 你能发一个示例文件让我们看看吗?
  • 另外,您可以在 Adob​​e Acrobat 中选择“文本”吗?如果你复制它,它会以文本形式出现吗?
  • 我找到了免费的盲文字体并且它被正确选择了。但是这些字体对于不同的母语是不同的,这让我麻烦了 2 次。现在盲文字符必须通过图像处理来解密。盲文样本 pdf dl.dropbox.com/u/18670740/…

标签: pdf itextsharp extract itext braille


【解决方案1】:

(还没有答案)

好吧,也许我没有正确理解。我刚刚尝试在您提供的 PDF 上使用 PdfTextExtractor,它工作正常。具体来说,第 1 页的以下文本被踢出:

B   r    a   i     l    l    e   C   o   d    e   s 
B r a i l l e C o d e s 

Embossed dot positions as,   


A  B   C   D   E   F   G  H   I    J   K  
A B C D E F G H I J K 
L    M  N  O   P  Q   R  S   T   U   V  
L M N O P Q R S T U V 
W  X   Y   Z 
W X Y Z 


1   2   3    4   5   6    7   8   9   0 
1 2 3 4 5 6 7 8 9 0

如果我误解了你,我深表歉意,但你是否试图将文本恢复为 盲文

【讨论】:

  • 这些 '{', '(', '[' 的盲文字符是相同的,同样对于 ']','}',',']' 。所以,如果我的字体(或您)安装的字体并不是所有可能表示形式的最佳字体,而不是不可能完美地翻译它。
  • 我真的很抱歉,但我仍然不确定您现在的实际问题是什么。文字就是文字——总是。字体采用称为字形的特定方式(草书、盲文、符号等)显示文本。标准盲文系统本身不区分大括号和方括号(据我所知),并且为它们绘制相同的字形。在这些字形背后,真正的文字仍然存在。如果有人将字形转换为静态图像,那么文本将会丢失,否则它会一直存在。
猜你喜欢
  • 2011-08-22
  • 2014-06-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-03-10
  • 2017-09-19
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多