鞑靼语言和 UTF-8答案

【问题标题】：Tartar language and UTF-8鞑靼语言和 UTF-8
【发布时间】：2021-01-07 16:31:10
【问题描述】：

我正在开展一个项目，其中包括将拉丁符号转换为相应的西里尔符号。我说的是俄罗斯许多国家之一使用的鞑靼语。我尝试在 UTF-8 中找到这些符号，但到目前为止失败了。我唯一需要的是鞑靼符号的 UTF 代码。其中有 6 个。谢谢！！

【问题讨论】：

维基百科页面可能包含您要查找的所有符号，因此如果您将要查找的符号复制到您的问题中，我们可能会帮助您对其进行编码。 en.wikipedia.org/wiki/Tatar_alphabet（通常正确的问题是“给定符号的 Unicode 名称是什么？”从名称中可以找到代码点，而 UTF-8 只是代码点的特定编码。）
如果您将字符粘贴到fileformat.info，它通常会告诉您其名称和编码。
一个XY problem?为什么要关心 UTF-8 字节序列？如今，任何（纯文本）编辑器都可以处理 UTF-8 - 甚至是 Windows 记事本 :))
@JosefZ：用户知道 UTF-8。他只是问了块，它是重要的，例如。选择正确的字体，或检查支持。普通的编辑器可以做 UTF-8，但这并不意味着你知道如何输入经典的英文排版字符（需要知道代码点，问题就是这个）

标签： utf-8 linguistics

【解决方案1】：

我不确定你指的是哪“6 个”。

来自Wikipedia：

鞑靼斯坦使用的鞑靼字母的官方西里尔文版本包含 39 个字母：

А Ә Б В Г Д Е (Ё) Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

Unicode 代码点：

U+0410 А
U+04D8 Ә
U+0411 Б
U+0412 В
U+0413 Г
U+0414 Д
U+0415 Е
U+0401 Ё
U+0416 Ж
U+0496 Җ
U+0417 З
U+0418 И
U+0419 Й
U+041A К
U+041B Л
U+041C М
U+041D Н
U+04A2 Ң
U+041E О
U+04E8 Ө
U+041F П
U+0420 Р
U+0421 С
U+0422 Т
U+0423 У
U+04AE Ү
U+0424 Ф
U+0425 Х
U+04BA Һ
U+0426 Ц
U+0427 Ч
U+0428 Ш
U+0429 Щ
U+042A Ъ
U+042B Ы
U+042C Ь
U+042D Э
U+042E Ю
U+042F Я

【讨论】：

【解决方案2】：

鞑靼语使用西里尔字母，因此您可能需要检查以下块：

U+0400 - U+04FF（基础）
U+0500 - U+052F（补充）
U+2DE0 - U+2DFF（扩展 A）
U+A640 - U+A69F（扩展 B）
U+1C80 - U+1C8F（扩展 C）。

Unicode Common Locale Data Repository（参见tt）有以下数据：

<characters>
    <exemplarCharacters>[а ә б в г д е ё ж җ з и й к л м н ң о ө п р с т у ү ф х һ ц ч ш щ ъ ы ь э ю я]</exemplarCharacters>
    <exemplarCharacters type="auxiliary" draft="contributed">[ғ қ]</exemplarCharacters>
    <exemplarCharacters type="index" draft="contributed">[А Ә Б В Г Д Е Ё Ж Җ З И Й К Л М Н Ң О Ө П Р С Т У Ү Ф Х Һ Ц Ч Ш Щ Ъ Ы Ь Э Ю Я]</exemplarCharacters>
    <exemplarCharacters type="numbers" draft="contributed">↑↑↑</exemplarCharacters>
    <exemplarCharacters type="punctuation" draft="contributed">[\- ‐ ‑ – — , ; \: ! ? . … ' ‘ ’ &quot; “ ” ( ) \[ \] § @ * / \&amp; # ′ ″]</exemplarCharacters>
</characters>

如你所见，内容不多，有些数据是draft=contributed，所以还是草稿。

【讨论】：