【问题标题】:Default character encoding for java console outputjava控制台输出的默认字符编码
【发布时间】:2023-03-31 23:57:02
【问题描述】:

Java 如何确定System.out 使用的编码?

给定以下类:

import java.io.File;
import java.io.PrintWriter;

public class Foo
{
    public static void main(String[] args) throws Exception
    {
        String s = "xxäñxx";
        System.out.println(s);
        PrintWriter out = new PrintWriter(new File("test.txt"), "UTF-8");
        out.println(s);
        out.close();
    }
}

它保存为 UTF-8,并在 Windows 系统上使用javac -encoding UTF-8 Foo.java 编译。

之后在 git-bash 控制台上(使用 UTF-8 字符集)我会这样做:

$ java Foo
xxõ±xx
$ java -Dfile.encoding=UTF-8 Foo
xxäñxx
$ cat test.txt
xxäñxx
$ java Foo | cat
xxäñxx
$ java -Dfile.encoding=UTF-8 Foo | cat
xxäñxx

这里发生了什么?

显然 java 会检查它是否连接到终端并在这种情况下更改其编码。有没有办法强制 Java 简单地输出纯 UTF-8?


我也在 cmd 控制台上进行了同样的尝试。重定向 STDOUT 似乎在那里没有任何区别。如果没有 file.encoding 参数,它会输出 ansi 编码,而它会输出 utf8 编码。

【问题讨论】:

  • System.out 使用default encoding 对字节进行编码。有时这甚至是控制台使用的编码。
  • 但是为什么java Foo 输出的东西与java Foo|cat 不同呢? - 默认编码应该是一样的。
  • 您确定您确实保存了使用 utf-8 编码的文件吗?依赖源文件编码通常是个坏主意。为了真正安全,请使用 "\u" 转义定义字符串。

标签: java windows utf-8 character-encoding console


【解决方案1】:

我假设您的控制台仍然在 cmd.exe 下运行。我怀疑您的控制台是否真的需要 UTF-8 - 我希望它确实是 OEM DOS 编码(例如 850 or 437。)

Java 将使用 JVM 初始化期间设置的 default encoding 对字节进行编码。

在我的电脑上复制:

java Foo

Java 编码为 windows-1252;控制台解码为 IBM850。结果:Mojibake

java -Dfile.encoding=UTF-8 Foo

Java 编码为 UTF-8;控制台解码为 IBM850。结果:Mojibake

cat test.txt

cat 将文件解码为 UTF-8; cat 编码为 IBM850;控制台解码为 IBM850。

java Foo | cat

Java 编码为 windows-1252; cat 解码为 windows-1252; cat 编码为 IBM850;控制台解码为 IBM850

java -Dfile.encoding=UTF-8 Foo | cat

Java 编码为 UTF-8; cat 解码为 UTF-8; cat 编码为 IBM850;控制台解码为 IBM850

cat 的这个实现必须使用启发式方法来确定字符数据是否为 ​​UTF-8,然后将数据从 UTF-8 或 ANSI(例如 windows-1252)转码到控制台编码(例如 IBM850。)

这可以通过以下命令来确认:

$ java HexDump utf8.txt
78 78 c3 a4 c3 b1 78 78

$ cat utf8.txt
xxäñxx

$ java HexDump ansi.txt
78 78 e4 f1 78 78

$ cat ansi.txt
xxäñxx

cat 命令可以做出此决定,因为e4 f1 不是有效的 UTF-8 序列。

您可以通过以下方式更正 Java 输出:

HexDump 是一个简单的 Java 应用程序:

import java.io.*;
class HexDump {
  public static void main(String[] args) throws IOException {
    try (InputStream in = new FileInputStream(args[0])) {
      int r;
      while((r = in.read()) != -1) {
        System.out.format("%02x ", 0xFF & r);
      }
      System.out.println();
    }
  }
}

【讨论】:

  • 非常感谢!我确信cat 只是按原样复制字节。显然,它确实在写入终端时尝试“修复”编码。我也不知道 git-bash 确实使用了 IBM850 cmd 终端。这个答案真的很有帮助。
猜你喜欢
  • 1970-01-01
  • 2016-12-03
  • 1970-01-01
  • 2018-07-08
  • 1970-01-01
  • 2011-05-16
  • 2019-03-11
  • 1970-01-01
  • 2019-01-30
相关资源
最近更新 更多