【问题标题】:Displaying UTF-8 Emoji in Java在 Java 中显示 UTF-8 表情符号
【发布时间】:2020-09-19 08:45:11
【问题描述】:

说我有 ???? (恶魔)表情符号。

在 4 字节的 UTF-8 中,表示如下:\u00f0\u009f\u0098\u0088

但是,在 Java 中,它只会像这样正确打印:\ud83d\ude08

如何从第一个转换为第二个?

更新 2

MNEMO 的回答要简单得多,并且回答了我的问题,所以最好还是采用他的解决方案。

更新

感谢 Basil Bourque 的报道。非常有趣。

我在这里找到了一个很好的参考:https://github.com/pRizz/Unicode-Converter/blob/master/conversionfunctions.js(尤其是 convertUTF82Char() 函数)。

对于将来在此徘徊的任何人,Java 中的外观如下所示:

public static String fromCharCode(int n) {
    char c = (char)n;
    return Character.toString(c);
}

public static String decToChar(int n) {
    // converts a single string representing a decimal number to a character
    // note that no checking is performed to ensure that this is just a hex number, eg. no spaces etc
    // dec: string, the dec codepoint to be converted
    String result = "";
    if (n <= 0xFFFF) {
        result += fromCharCode(n);
    } else if (n <= 0x10FFFF) {
        n -= 0x10000;
        result += fromCharCode(0xD800 | (n >> 10)) + fromCharCode(0xDC00 | (n & 0x3FF));
    } else {
        result += "dec2char error: Code point out of range: " + decToHex(n);
    }

    return result;
}

public static String decToHex(int n) {
    return Integer.toHexString(n).toUpperCase();
}

public static String convertUTF8_toChar(String str) {
    // converts to characters a sequence of space-separated hex numbers representing bytes in utf8
    // str: string, the sequence to be converted
    var outputString = "";
    var counter = 0;
    var n = 0;

    // remove leading and trailing spaces
    str = str.replaceAll("/^\\s+/", "");
    str = str.replaceAll("/\\s+$/", "");
    if (str.length() == 0) {
        return "";
    }

    str = str.replaceAll("/\\s+/g", " ");

    var listArray = str.split(" ");
    for (var i = 0; i < listArray.length; i++) {
        int b = parseInt(listArray[i], 16); // alert('b:'+dec2hex(b));
        switch (counter) {
            case 0:
                if (0 <= b && b <= 0x7F) { // 0xxxxxxx
                    outputString += decToChar(b);
                } else if (0xC0 <= b && b <= 0xDF) { // 110xxxxx
                    counter = 1;
                    n = b & 0x1F;
                } else if (0xE0 <= b && b <= 0xEF) { // 1110xxxx
                    counter = 2;
                    n = b & 0xF;
                } else if (0xF0 <= b && b <= 0xF7) { // 11110xxx
                    counter = 3;
                    n = b & 0x7;
                } else {
                    outputString += "convertUTF82Char: error1 " + decToHex(b) + "! ";
                }
                break;
            case 1:
                if (b < 0x80 || b > 0xBF) {
                    outputString += "convertUTF82Char: error2 " + decToHex(b) + "! ";
                }
                counter--;
                outputString += decToChar((n << 6) | (b - 0x80));
                n = 0;
                break;
            case 2:
            case 3:
                if (b < 0x80 || b > 0xBF) {
                    outputString += "convertUTF82Char: error3 " + decToHex(b) + "! ";
                }
                n = (n << 6) | (b - 0x80);
                counter--;
                break;
        }
    }

    return outputString.replaceAll("/ $/", "");
}

几乎是一对一的副本,但它实现了我的目标。

【问题讨论】:

  • 如果要解决问题,建议多了解字符编码和Unicode系统。 4 字节 UTF-8 是一个字节序列,而不是 Unicode 代码点本身。

标签: java utf-8 byte emoji utf-16


【解决方案1】:

SMILING FACE WITH HORNS 字符 (?) 被分配给 Unicode 中的 code point 十进制 128,520 (1F608 hexadecimal)。

您可以选择如何用一系列octets 来表示该数字。

  • UTF-8 是一种用可变长度表示该数字的方法,使用 1-4 个八位字节。
    • UTF-8 正在成为许多领域的主要编码。
    • 根据我的经验,Java 源代码文件通常使用 UTF-8 编写,正如 here 所讨论的那样。
  • UTF-16 是另一种方式,也是可变长度的,但使用 2 个八位字节或 4 个八位字节。
    • Java 语言 uses UTF-16 内部。
    • UTF-8 通常比 UTF-16 更受欢迎,正如 here 所讨论的那样。

在大多数文本编辑器中,您只需将单个字符 ? 粘贴到源代码中即可。当写入 UTF-8 文件时,编辑器将创建必要的八位字节系列。

将此字符写入文本文件或序列化为八位字节流时​​,您可以选择使用 UTF-8 或 UTF-16。见:

以下是几个试验。您可以使用hex editor 检查生成的文件以查看八位位组。

UTF-8

此代码生成一个 UTF-8 编码的文件。我们找到四个八位字节,十六进制值 F0 9F 98 88,十进制值 240 159 152 136。

您可以在Oracle Java Tutorial 找到此代码。

请注意我们如何为文件指定编码StandardCharsets.UTF_8

Path file = Paths.get( "/Users/basilbourque/devil_utf-8.txt" );
Charset charset = StandardCharsets.UTF_8;
String s = "?";
try ( BufferedWriter writer = Files.newBufferedWriter( file , charset ) )
{
    writer.write( s , 0 , s.length() );
}
catch ( IOException e )
{
    e.printStackTrace();
}

UTF-16

此代码生成一个 UTF-16 编码的文件。我们找到了 6 个八位字节,我们的单个字符有 4 个八位字节,加上 BOM (FE FF) 的 2 个八位字节前缀。我们十进制的四个八位字节是 216 061 222 008,十六进制是 D8 3D DE 08。

与上面的代码相同,但我们将Charset 切换为StandardCharsets.UTF_16

Path file = Paths.get( "/Users/basilbourque/devil_utf-16.txt" );
Charset charset = StandardCharsets.UTF_16;
String s = "?";
try ( BufferedWriter writer = Files.newBufferedWriter( file , charset ) )
{
    writer.write( s , 0 , s.length() );
}
catch ( IOException e )
{
    e.printStackTrace();
}

关于 Unicode 和编码

要了解 Unicode 和编码的基础知识,请阅读帖子 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

【讨论】:

    【解决方案2】:

    好吧,这完全没有必要添加,但是在您了解所有字符编码系统和 Unicode 概念之后,以下代码可能对您有用。

    byte[] a = { (byte)0xf0, (byte)0x9f, (byte)0x98, (byte)0x88 };
    String s = new String(a,"UTF-8");
    byte[] b = s.getBytes("UTF-16BE");
    for ( byte c : b ) { System.out.printf("%02x ",c); }
    

    【讨论】:

    • 它确实有效,而且比我最终得到的要简单得多。现在我所要做的就是以我所说的格式打印它。谢谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-07-17
    • 2014-08-06
    • 2016-06-10
    • 2019-03-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多