Java String UTF-8 将 0xFF 解码为 0xC3BF答案

【问题标题】：Java String UTF-8 decodes 0xFF as 0xC3BFJava String UTF-8 将 0xFF 解码为 0xC3BF
【发布时间】：2014-10-16 19:46:24
【问题描述】：

我在使用 OutputStream 将某些字节写入文件时遇到了一个奇怪的问题。

问题似乎是由数据的“编码”引起的。

如果我明确写入输出流

saveFile.write(new byte[]{(byte)0xFF});

它工作正常，我在十六进制编辑器中看到 0xFF。

但是当我尝试使用字符串执行此操作时，它不起作用。示例：

scriptData = "some script data thats all text and stuff" + ((char)0xFF) + ((char)0x3B);
saveFile.write(scriptData.getBytes(Charset.forName("UTF-8")));

在我的十六进制编辑器中，我看到文本，然后是 0xC3BF，然后是 0x3B。为什么 0x3B 正确写入文件但 0xFF 更改为 0xC3BF？

我看到了另一个线程，但它涉及我没有使用 AFAIK 的 PrintStream。

Problem writing 0xFF to file

谢谢。

【问题讨论】：

这是一个编码问题。 Code point 0xFF 必须是 UTF-8 编码，0xC3BF 是 UTF-8 编码。

标签： java string utf-8 byte

【解决方案1】：

您要求的是字符 0xFF 的 UTF-8 等效项（非常明确）。字符 0xFF 在 UTF-8 中表示为两个字节：0xC3 和 0xBF。如果您不想使用 UTF-8 编码，请不要将 getBytes 与 UTF-8 编码一起使用。

请记住，UTF-8 不是每个字符一个字节的编码。 UTF-8（与所有 Unicode 转换一样）需要能够表示每个 Unicode 字符。这意味着 UTF-8 中的某些字符只有一个字节长；其他是两个字节长；还有一些是三个字节长，还有一些是四个字节长。

【讨论】：

哦..我觉得自己很笨。我刚刚删除了编码参数并且它起作用了。谢谢。