【发布时间】:2023-04-06 22:24:01
【问题描述】:
在寻找从解析的 HTML 中修剪非中断空间的正确方法时,我首先偶然发现了 Java 的 String.trim() 的斯巴达式定义,它至少有正确的文档记录。我想避免明确列出符合修剪条件的字符,所以我假设在 Character 类上使用 Unicode 支持的方法可以为我完成这项工作。
那时我发现Character.isWhitespace(char) 明确排除了不间断空格:
它是 Unicode 空格字符(
SPACE_SEPARATOR、LINE_SEPARATOR或PARAGRAPH_SEPARATOR)但也不是不间断空格('\u00A0'、'\u2007'、@987654329 @)。
这是为什么呢?
corresponding .NET equivalent 的实现区别不大。
【问题讨论】: