【发布时间】:2015-10-08 16:52:19
【问题描述】:
我有一个 Unicode 文本块,如下所示:
ụ
ư
ứ
Ỳ
Ỷ
Ỵ
Đ
现在,我想将此原始 Unicode 文本块转换为 UTF-8 (HEX) 代码点的文本块(请参阅此页面上的 Hexadecimal UTF-8 列:@ 987654321@), 由PHP;像这样:
\xe1\xbb\xa5
\xc6\xb0
\xe1\xbb\xa9
\xe1\xbb\xb2
\xe1\xbb\xb6
\xe1\xbb\xb4
\xc4\x90
不是这样的:
0x1EE5
0x01B0
0x1EE9
0x1EF2
0x1EF6
0x1EF4
0x0110
有没有办法通过 PHP 做到这一点?
我已阅读此主题 (PHP: Convert unicode codepoint to UTF-8)。但是,它与我的问题不相似。
对不起,我对Unicode了解不多。
【问题讨论】:
-
您必须知道(或尝试猜测,但这仅在某些时候有效)您的输入采用什么编码。如果它已经是 UTF-8,那么它可能已经是您想要的格式-- 假设
0xe1不是指代表0、x、e、1的4 个字节,而是代表数字225 的一个字节。 -
second answer on the question you link to 确实将 Unicode 代码点转换为 UTF-8 字节。
-
你能展示你尝试过的东西吗?这样我们就可以确切地知道您要做什么。目前,有很多方法可以解释您的问题,因为我们正在尝试猜测您进行此类转换的目的。
标签: php regex encoding utf-8 ucs2