【问题标题】:Is it possible to convert characters from one language to another language's character using unicode matching? [closed]是否可以使用 unicode 匹配将字符从一种语言转换为另一种语言的字符? [关闭]
【发布时间】:2016-01-23 08:36:45
【问题描述】:

我想将英语翻译成 x 语言,为此 首先,将英文字符转换为等效的英文Unicode 然后将英文 Unicode 转换为 x Unicode 然后 x Unicode 到 x 个字符。所以,我想使用 c 语言或任何其他语言将一种语言 Unicode 转换为等效的其他语言 Unicode。

例如,我想将“Linux”(ex word)从英语转换为泰米尔语“லினக்ஸ்”

“Linux”的Unicode(ex word):004c 0069 006e 0075 0078

他们是否有可能将此英语 Unicode 转换为泰米尔语等效 Unicode?​​p>

【问题讨论】:

  • Unicode 是 Unicode。该标准多年来一直在发展,但所有语言共享相同的 Unicode,这就是它的全部意义所在。在过去,IBM(例如)对于不同的语言有不同的字符集。 Unicode 取代了这一切。
  • 也许您正在考虑用多字节替换单字节字符(例如 ASCII 或 ISO Latin 1)?在 python 中看到 codecs 模块,在 C 中看到 stackoverflow.com/questions/11576846/…。如果您使用 Python 3、Java 或 C#,则本机字符串无论如何都是 Unicode。
  • 不清楚您真正想要做什么。你能举一些输入和输出的例子吗?
  • 您似乎在寻找音译,但从一种文字的特征到另一种文字的特征之间没有单一的明确映射。我不熟悉泰米尔语,但即使使用相同脚本的语言也经常使用不兼容的约定。例如,英文单词 tape 已借入芬兰语为 teippi.
  • 问题同时显示英语和泰米尔语 Linux 的事实是 Unicode 的含义。

标签: python unicode clang


【解决方案1】:

您不能执行“将英文 unicode 转换为 x 语言 unicode”的步骤。 Unicode 是一种编码,每种语言的每个字符都有唯一的代码点,因此没有“英语 unicode”或“x 语言 unicode”之类的东西——它是一种单一的编码类型。 IE。对于字母“i”,有一个表示 0x2A(不是真正的代码点,只是为了解释),而 unicode 中的 0x2A 将始终是“i”独立于语言。

【讨论】:

  • 原谅我,但 0x002A 是 *,或者这是对生命、宇宙和一切的答案的无意识使用?
  • 如括号 0x2A 中所述,对于我的“i”示例,“不是真正的代码点”。当然,由于 unicode 与 ASCII 兼容,因此从 0 到 128 的任何数字都是合法的 unicode 代码点。但我明白你对“42”的看法,是的,那是无意识的。 :)
  • 我认为 Unicode 中的 0 到 255 是 ISO Latin 1 ftp.unicode.org/Public/MAPPINGS/ISO8859/8859-1.TXT 是正确的。 0 到 127 是 ASCII,是的,这非常迂腐。
  • 谢谢,但现在无法更正,因此请考虑隐含“从 0 到 128(非包含)”。 ;)
猜你喜欢
  • 1970-01-01
  • 2018-02-15
  • 1970-01-01
  • 2015-10-31
  • 1970-01-01
  • 1970-01-01
  • 2021-12-27
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多