【发布时间】:2012-02-21 14:10:53
【问题描述】:
我在我的 Perl 应用程序中使用 PDF::API2 来嵌入 OCR
在相应图像后面输出,允许搜索生成的 PDF,作为 OCR
可以使用pdftotext 提取输出。
目前,只要应用程序在 OCR 输出,它从 PDF 核心字体切换到 TTF。然而,这 真的很hacky,因为核心字体包括大多数西欧 人物。 TTF 仅对希腊语、俄语、日语、 等等
我如何判断一个特定的字体是否包含一个特定的
字符(包括 CMAP 表,以便提取与
pdftotext 有效)?
【问题讨论】:
-
你看过Font::TTF::Font吗?
标签: perl pdf unicode fonts truetype