【问题标题】:Unicode Character COMBINING LATIN SMALL LETTER CUnicode 字符组合拉丁小写字母 C
【发布时间】:2013-02-21 16:10:31
【问题描述】:

我在“现实生活”中遇到COMBINING LATIN SMALL LETTER C (U+0368) 的可能性有多大(clever Scottish folk 除外)?

我在问,因为它在 Unicode Block Combining Diacritical MarksCategory Mark, Nonspacing [Mn] 中。

因此,它似乎被 ICU Transliterator 等实用程序视为与 COMBINING GRAVE ACCENT (U+0300) 等字符相同的字符(使用建议的 "NFD; [:Nonspacing Mark:] Remove; NFC" 或直接的 "Latin-ASCII" 音译)。

【问题讨论】:

  • 考虑到分类,ICU 的行为似乎是合适的——角色是另一个角色的装饰,另一个角色是主要角色。任何其他用法(例如您聪明的苏格兰语)都是滥用行为,不应期望产生合理的结果。
  • 在中世纪的德语文本中并不少见。好吧,如果你不支持它,作者不会不高兴;)

标签: unicode icu


【解决方案1】:

可能性非常接近于零,但并不完全为零。您不能阻止任何人随意使用 Unicode 字符。 Unicode 标准中没有关于 U+0368 的具体信息,但它已明确定义为一个组合字符,会导致符号 (c) 显示在前面的字符之上。我希望主要以中世纪手稿的数字化形式或类似的形式找到它。

在空格字符之后使用它,就像在“聪明”页面中提到的那样,不是预期的用途,但也不是无效的。 Unicode 允许您在任何字符后使用任何组合标记,无论是否有意义。

它没有规范或兼容性分解,因此在您不能或不想保留字符的上下文中没有明确的方法来处理。

【讨论】:

  • 谢谢你,尤卡。很难找到有关该角色“预期用途”的任何信息。知道这一点(以及上面@MarkRansom 的评论),我知道任何想要拼写 M^cDonald 的人都必须使用上标(或其他格式)来帮助我决定不值得实施特殊情况将其音译为“常规”字母“c”。
【解决方案2】:

可能性是完全不确定的,只是说如果你期望它不会发生,那么它就会发生。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-07-07
    • 1970-01-01
    • 2014-06-06
    • 2011-10-15
    • 1970-01-01
    • 2017-06-26
    • 2013-07-16
    • 2013-10-21
    相关资源
    最近更新 更多