【问题标题】:PDF - Ligature mapping in CMapPDF - CMap 中的连字映射
【发布时间】:2019-08-06 10:50:24
【问题描述】:

我有一个具有以下映射的 pdf:

<019A> <0074>
<039E> <00A9>
<019F> <00740069>
<01B5> <0075>
<01C0> <0076>
<01C7> <0079>
<03EC> <0030>

映射,cid 代表连字ti。
在映射 \u0074 -> t 和 \u0069 -> i(因此)连字 ti。
如何获得实际的连字 unicode?或者我必须跟踪这种模式并用连字的实际 unicode 替换 cid 映射?

谢谢。

【问题讨论】:

  • Unicode 没有“ti”连字字符。这个 CMap 是从哪里来的?
  • 它嵌入在 PDF 中。 :(
  • 看起来必须以编程方式对其进行跟踪。
  • 是的,你必须这样做。

标签: ios pdf unicode


【解决方案1】:

基本上,对于每个字符代码,您不能假设映射中只有一个 unicode 字符。您将不得不输出这两个字符。在 unicode 中它甚至可以超过两个字符。有些字体也有“ffl”的连字。

这里还需要注意的是,Unicode 规范也对连字有特殊的单字符定义:https://en.wikipedia.org/wiki/Typographic_ligature 映射中可能会使用特殊的连字 unicode 字符。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-10-31
    • 2012-01-28
    • 1970-01-01
    • 1970-01-01
    • 2017-06-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多