【问题标题】:Reading text from file with UTF-16 BOM character从具有 UTF-16 BOM 字符的文件中读取文本
【发布时间】:2016-07-02 01:07:11
【问题描述】:

我正在尝试一种通用的方法来从文件中获取文本。相当容易,只是要求它应该丢弃前导 BOM 字符。对于 UTF-8,我得到了这个工作。我为此使用了正则表达式模式:

Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");

Charset encoding; // This is given.
InputStream input; // This is created.

// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");

现在我的问题是:这非常适用于 UTF-8 BOM 字符(EF BB BF),但不适用于其他任何字符。 但是,正如它所说的here

构成 BOM 的确切字节将是 Unicode 字符 U+FEFF 通过该转换格式转换成的任何内容。

这让我假设“\uFEFF”字符适用于所有 BOM 字符。事实证明,它没有。

经过更多研究,事实证明“FE FF”和“FF FE”BOM 字符都被 Java 读取为 char 65533,而“\uFEFF”字符串解析为 char 65279。这确实说明了原因这些字符没有被删除,但我认为这不是预期的行为。

谁能阐明它为什么会这样,或者更确切地说如何解决它? 谢谢:)

【问题讨论】:

    标签: java text utf-8 utf-16 utf


    【解决方案1】:

    原来这只是一个非常愚蠢的错误。我没有将正确的编码传递给 IOUtils。因此它没有返回正确的字符。通过 UTF-16 字符集时,它工作正常。傻了……

    【讨论】:

      猜你喜欢
      • 2012-08-20
      • 2015-07-14
      • 2014-03-04
      • 1970-01-01
      • 2014-04-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多