是否可以使用 unicode 匹配将字符从一种语言转换为另一种语言的字符？ [关闭]答案

【问题标题】：Is it possible to convert characters from one language to another language's character using unicode matching? [closed]是否可以使用 unicode 匹配将字符从一种语言转换为另一种语言的字符？ [关闭]
【发布时间】：2016-01-23 08:36:45
【问题描述】：

我想将英语翻译成 x 语言，为此首先，将英文字符转换为等效的英文Unicode 然后将英文 Unicode 转换为 x Unicode 然后 x Unicode 到 x 个字符。所以，我想使用 c 语言或任何其他语言将一种语言 Unicode 转换为等效的其他语言 Unicode。

例如，我想将“Linux”（ex word）从英语转换为泰米尔语“லினக்ஸ்”

“Linux”的Unicode（ex word）：004c 0069 006e 0075 0078

他们是否有可能将此英语 Unicode 转换为泰米尔语等效 Unicode？p>

【问题讨论】：

Unicode 是 Unicode。该标准多年来一直在发展，但所有语言共享相同的 Unicode，这就是它的全部意义所在。在过去，IBM（例如）对于不同的语言有不同的字符集。 Unicode 取代了这一切。
也许您正在考虑用多字节替换单字节字符（例如 ASCII 或 ISO Latin 1）？在 python 中看到 codecs 模块，在 C 中看到 stackoverflow.com/questions/11576846/…。如果您使用 Python 3、Java 或 C#，则本机字符串无论如何都是 Unicode。
不清楚您真正想要做什么。你能举一些输入和输出的例子吗？
您似乎在寻找音译，但从一种文字的特征到另一种文字的特征之间没有单一的明确映射。我不熟悉泰米尔语，但即使使用相同脚本的语言也经常使用不兼容的约定。例如，英文单词 tape 已借入芬兰语为 teippi.
问题同时显示英语和泰米尔语 Linux 的事实是 Unicode 的含义。

标签： python unicode clang

【解决方案1】：

您不能执行“将英文 unicode 转换为 x 语言 unicode”的步骤。 Unicode 是一种编码，每种语言的每个字符都有唯一的代码点，因此没有“英语 unicode”或“x 语言 unicode”之类的东西——它是一种单一的编码类型。 IE。对于字母“i”，有一个表示 0x2A（不是真正的代码点，只是为了解释），而 unicode 中的 0x2A 将始终是“i”独立于语言。

【讨论】：

原谅我，但 0x002A 是 *，或者这是对生命、宇宙和一切的答案的无意识使用？
如括号 0x2A 中所述，对于我的“i”示例，“不是真正的代码点”。当然，由于 unicode 与 ASCII 兼容，因此从 0 到 128 的任何数字都是合法的 unicode 代码点。但我明白你对“42”的看法，是的，那是无意识的。 :)
我认为 Unicode 中的 0 到 255 是 ISO Latin 1 ftp.unicode.org/Public/MAPPINGS/ISO8859/8859-1.TXT 是正确的。 0 到 127 是 ASCII，是的，这非常迂腐。
谢谢，但现在无法更正，因此请考虑隐含“从 0 到 128（非包含）”。 ;)