【问题标题】:Tartar language and UTF-8鞑靼语言和 UTF-8
【发布时间】:2021-01-07 16:31:10
【问题描述】:

我正在开展一个项目,其中包括将拉丁符号转换为相应的西里尔符号。我说的是俄罗斯许多国家之一使用的鞑靼语。我尝试在 UTF-8 中找到这些符号,但到目前为止失败了。我唯一需要的是鞑靼符号的 UTF 代码。其中有 6 个。 谢谢!!

【问题讨论】:

  • 维基百科页面可能包含您要查找的所有符号,因此如果您将要查找的符号复制到您的问题中,我们可能会帮助您对其进行编码。 en.wikipedia.org/wiki/Tatar_alphabet(通常正确的问题是“给定符号的 Unicode 名称是什么?”从名称中可以找到代码点,而 UTF-8 只是代码点的特定编码。)
  • 如果您将字符粘贴到fileformat.info,它通常会告诉您其名称和编码。
  • 一个XY problem?为什么要关心 UTF-8 字节序列?如今,任何(纯文本)编辑器都可以处理 UTF-8 - 甚至是 Windows 记事本 :))
  • @JosefZ:用户知道 UTF-8。他只是问了块,它是重要的,例如。选择正确的字体,或检查支持。普通的编辑器可以做 UTF-8,但这并不意味着你知道如何输入经典的英文排版字符(需要知道代码点,问题就是这个)

标签: utf-8 linguistics


【解决方案1】:

我不确定你指的是哪“6 个”。

来自Wikipedia

鞑靼斯坦使用的鞑靼字母的官方西里尔文版本 包含 39 个字母:

А Ә Б В Г Д Е (Ё) Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

Unicode 代码点:

U+0410 А
U+04D8 Ә
U+0411 Б
U+0412 В
U+0413 Г
U+0414 Д
U+0415 Е
U+0401 Ё
U+0416 Ж
U+0496 Җ
U+0417 З
U+0418 И
U+0419 Й
U+041A К
U+041B Л
U+041C М
U+041D Н
U+04A2 Ң
U+041E О
U+04E8 Ө
U+041F П
U+0420 Р
U+0421 С
U+0422 Т
U+0423 У
U+04AE Ү
U+0424 Ф
U+0425 Х
U+04BA Һ
U+0426 Ц
U+0427 Ч
U+0428 Ш
U+0429 Щ
U+042A Ъ
U+042B Ы
U+042C Ь
U+042D Э
U+042E Ю
U+042F Я

【讨论】:

    【解决方案2】:

    鞑靼语使用西里尔字母,因此您可能需要检查以下块:

    • U+0400 - U+04FF(基础)
    • U+0500 - U+052F(补充)
    • U+2DE0 - U+2DFF(扩展 A)
    • U+A640 - U+A69F(扩展 B)
    • U+1C80 - U+1C8F(扩展 C)。

    Unicode Common Locale Data Repository(参见tt)有以下数据:

    <characters>
        <exemplarCharacters>[а ә б в г д е ё ж җ з и й к л м н ң о ө п р с т у ү ф х һ ц ч ш щ ъ ы ь э ю я]</exemplarCharacters>
        <exemplarCharacters type="auxiliary" draft="contributed">[ғ қ]</exemplarCharacters>
        <exemplarCharacters type="index" draft="contributed">[А Ә Б В Г Д Е Ё Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я]</exemplarCharacters>
        <exemplarCharacters type="numbers" draft="contributed">↑↑↑</exemplarCharacters>
        <exemplarCharacters type="punctuation" draft="contributed">[\- ‐ ‑ – — , ; \: ! ? . … ' ‘ ’ &quot; “ ” ( ) \[ \] § @ * / \&amp; # ′ ″]</exemplarCharacters>
    </characters>
    

    如你所见,内容不多,有些数据是draft=contributed,所以还是草稿。

    【讨论】:

      猜你喜欢
      • 2011-04-12
      • 1970-01-01
      • 2013-03-17
      • 2012-03-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-04-19
      相关资源
      最近更新 更多