【问题标题】:java unicode conversion on linux not working on max os xlinux上的java unicode转换在mac os x上不起作用
【发布时间】:2013-09-26 06:51:24
【问题描述】:

我正在 Ubuntu Linux 上编写一个 java 应用程序,它读取一个文本文件并从数据中创建一个 xml 文件。一些文本包含弯撇号和引号,我使用以下代码将它们转换为直撇号和引号:

dataLine = dataLine.replaceAll( "[\u2018|\u2019]", "\u0027" ).replaceAll( "[\u201C|\u201D]", "\u005c\u0022" );

这工作正常,但是当我将 jar 文件移植到 Mac OSX 机器时,我得到三个问号,我应该得到直撇号和引号。我在 Mac 上创建了一个测试应用程序,使用相同的代码行进行转换,并使用相同的测试文件进行输入,它运行良好。为什么Linux机器上创建的jar文件在Mac上不能正常工作?我认为java应该是跨平台兼容的。

【问题讨论】:

  • 您知道[\u2018|\u2019] 匹配三个字符吗?
  • “我得到三个问号”在哪里得到它们?在往返过程中有几个地方可能会出现编码错误,当这种情况发生时您需要隔离。

标签: java linux macos unicode


【解决方案1】:

您可能一开始就没有正确读取文件。您还没有展示您是如何读取文件的,但我的猜测是您只是在使用 FileReaderInputStreamReader 而不指定编码。在这种情况下,将使用默认平台编码 - 如果这不是文件的实际编码,您将不会读取正确的字符。您应该能够在不进行任何替换的情况下检测到这一点。

相反,您应该使用FileInputStream 并将其包装在具有正确编码的InputStreamReader 中——这很可能是UTF-8,因为它是XML。 (您应该可以轻松检查。)

【讨论】:

  • 猜得好。我认为 OS X 上的默认 Java 编码可能仍然是 MacRoman,而不是 UTF-8。
猜你喜欢
  • 1970-01-01
  • 2015-08-11
  • 1970-01-01
  • 2015-01-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-04-27
  • 2016-04-06
相关资源
最近更新 更多