String 构造函数中缺少边界检查消除？答案

【问题标题】：Missing bounds checking elimination in String constructor?String 构造函数中缺少边界检查消除？
【发布时间】：2022-01-13 06:22:08
【问题描述】：

查看 UTF8 解码性能，我注意到 protobuf 的 UnsafeProcessor::decodeUtf8 的性能优于 String(byte[] bytes, int offset, int length, Charset charset) 对于以下非 ascii 字符串："Quizdeltagerne spiste jordbær med flØde, mens cirkusklovnen"。

我试图找出原因，所以我复制了String中的相关代码，并将数组访问替换为不安全的数组访问，与UnsafeProcessor::decodeUtf8相同。以下是 JMH 基准测试结果：

Benchmark                       Mode  Cnt    Score   Error  Units
StringBenchmark.safeDecoding    avgt   10  127.107 ± 3.642  ns/op
StringBenchmark.unsafeDecoding  avgt   10  100.915 ± 4.090  ns/op

我认为差异是由于缺少我希望启动的边界检查消除，特别是因为在 String(byte[] bytes, int offset, int length, Charset charset) 的开头以调用 checkBoundsOffCount(offset, length, bytes.length) 的形式进行了明确的边界检查。

问题真的是缺少边界检查消除吗？

这是我使用 OpenJDK 17 和 JMH 进行基准测试的代码。请注意，这只是String(byte[] bytes, int offset, int length, Charset charset) 构造函数代码的一部分，并且仅适用于这个特定的德语字符串。静态方法是从String 复制而来的。查找// the unsafe version: cmets，它指示我将安全访问替换为不安全的位置。

    private static byte[] safeDecode(byte[] bytes, int offset, int length) {
        checkBoundsOffCount(offset, length, bytes.length);
        int sl = offset + length;
        int dp = 0;
        byte[] dst = new byte[length];
        while (offset < sl) {
            int b1 = bytes[offset];
            // the unsafe version:
            // int b1 = UnsafeUtil.getByte(bytes, offset);
            if (b1 >= 0) {
                dst[dp++] = (byte)b1;
                offset++;
                continue;
            }
            if ((b1 == (byte)0xc2 || b1 == (byte)0xc3) &&
                    offset + 1 < sl) {
                // the unsafe version:
                // int b2 = UnsafeUtil.getByte(bytes, offset + 1);
                int b2 = bytes[offset + 1];
                if (!isNotContinuation(b2)) {
                    dst[dp++] = (byte)decode2(b1, b2);
                    offset += 2;
                    continue;
                }
            }
            // anything not a latin1, including the repl
            // we have to go with the utf16
            break;
        }
        if (offset == sl) {
            if (dp != dst.length) {
                dst = Arrays.copyOf(dst, dp);
            }
            return dst;
        }

        return dst;
    }

跟进

显然，如果我将 while 循环条件从 offset < sl 更改为 0 <= offset && offset < sl 我在两个版本中都获得了相似的性能：

Benchmark                       Mode  Cnt    Score    Error  Units
StringBenchmark.safeDecoding    avgt   10  100.802 ± 13.147  ns/op
StringBenchmark.unsafeDecoding  avgt   10  102.774 ± 3.893  ns/op

【问题讨论】：

有趣，我一直相信 JIT 会优化边界检查，特别是在方法中不修改 bytes 和 offset 的情况下。我认为你应该使用 LinuxPerfAsmProfiler 来查看执行的程序集
我打印了生成的程序集，但我无法充分利用它。我的主要观点是，我希望 HotSpot 优化的 UTF8 解码至少与 protobuf（或其他第 3 方）一样快替代品）。目前只对包含纯 ascii 的字符串进行高度优化，但非 ascii latin1 字符串的情况可以大大改善。
我尝试使用提供的字符串在 JDK 代码库上测试 0 <= offset && offset < sl 并让您知道结果
我已经回答了下面的问题，请查看带有链接的答案。你是对的

标签： java arrays performance protobuf-java bounds-check-elimination

【解决方案1】：

为了测量您感兴趣的分支，特别是当while 循环变热时的场景，我使用了以下基准：

@State(Scope.Thread)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.NANOSECONDS)
public class StringConstructorBenchmark {
  private byte[] array;

  @Setup
  public void setup() {
    String str = "Quizdeltagerne spiste jordbær med fløde, mens cirkusklovnen. Я";
    array = str.getBytes(StandardCharsets.UTF_8);
  }

  @Benchmark
  public String newString()  {
      return new String(array, 0, array.length, StandardCharsets.UTF_8);
  }
}

确实，使用修改后的构造函数确实会带来显着的改进：

//baseline
Benchmark                             Mode  Cnt    Score   Error  Units
StringConstructorBenchmark.newString  avgt   50  173,092 ± 3,048  ns/op

//patched
Benchmark                             Mode  Cnt    Score   Error  Units
StringConstructorBenchmark.newString  avgt   50  126,908 ± 2,355  ns/op

这可能是一个热点问题：优化编译器由于某种原因未能消除while-loop 中的数组边界检查。我猜原因是offset在循环内被修改了：

while (offset < sl) {
    int b1 = bytes[offset];
    if (b1 >= 0) {
        dst[dp++] = (byte)b1;
        offset++;                     // <---
        continue;
    }
    if ((b1 == (byte)0xc2 || b1 == (byte)0xc3) &&
            offset + 1 < sl) {
        int b2 = bytes[offset + 1];
        if (!isNotContinuation(b2)) {
            dst[dp++] = (byte)decode2(b1, b2);
            offset += 2;
            continue;
        }
    }
    // anything not a latin1, including the repl
    // we have to go with the utf16
    break;
}

我还通过LinuxPerfAsmProfiler查看了代码，这是基线https://gist.github.com/stsypanov/d2524f98477d633fb1d4a2510fedeea6的链接，这个链接用于修补构造函数https://gist.github.com/stsypanov/16c787e4f9fa3dd122522f16331b68b7

应该注意什么？让我们找到对应int b1 = bytes[offset];的代码（第538行）。在基线我们有这个：

  3.62%           ││            │  0x00007fed70eb4c1c:   mov    %ebx,%ecx
  2.29%           ││            │  0x00007fed70eb4c1e:   mov    %edx,%r9d
  2.22%           ││            │  0x00007fed70eb4c21:   mov    (%rsp),%r8                   ;*iload_2 {reexecute=0 rethrow=0 return_oop=0}
                  ││            │                                                            ; - java.lang.String::&lt;init&gt;@107 (line 537)
  2.32%           ↘│            │  0x00007fed70eb4c25:   cmp    %r13d,%ecx
                   │            │  0x00007fed70eb4c28:   jge    0x00007fed70eb5388           ;*if_icmpge {reexecute=0 rethrow=0 return_oop=0}
                   │            │                                                            ; - java.lang.String::&lt;init&gt;@110 (line 537)
  3.05%            │            │  0x00007fed70eb4c2e:   cmp    0x8(%rsp),%ecx
                   │            │  0x00007fed70eb4c32:   jae    0x00007fed70eb5319
  2.38%            │            │  0x00007fed70eb4c38:   mov    %r8,(%rsp)
  2.64%            │            │  0x00007fed70eb4c3c:   movslq %ecx,%r8
  2.46%            │            │  0x00007fed70eb4c3f:   mov    %rax,%rbx
  3.44%            │            │  0x00007fed70eb4c42:   sub    %r8,%rbx
  2.62%            │            │  0x00007fed70eb4c45:   add    $0x1,%rbx
  2.64%            │            │  0x00007fed70eb4c49:   and    $0xfffffffffffffffe,%rbx
  2.30%            │            │  0x00007fed70eb4c4d:   mov    %ebx,%r8d
  3.08%            │            │  0x00007fed70eb4c50:   add    %ecx,%r8d
  2.55%            │            │  0x00007fed70eb4c53:   movslq %r8d,%r8
  2.45%            │            │  0x00007fed70eb4c56:   add    $0xfffffffffffffffe,%r8
  2.13%            │            │  0x00007fed70eb4c5a:   cmp    (%rsp),%r8
                   │            │  0x00007fed70eb4c5e:   jae    0x00007fed70eb5319
  3.36%            │            │  0x00007fed70eb4c64:   mov    %ecx,%edi                    ;*aload_1 {reexecute=0 rethrow=0 return_oop=0}
                   │            │                                                            ; - java.lang.String::&lt;init&gt;@113 (line 538)
  2.86%            │           ↗│  0x00007fed70eb4c66:   movsbl 0x10(%r14,%rdi,1),%r8d       ;*baload {reexecute=0 rethrow=0 return_oop=0}
                   │           ││                                                            ; - java.lang.String::&lt;init&gt;@115 (line 538)
  2.48%            │           ││  0x00007fed70eb4c6c:   mov    %r9d,%edx
  2.26%            │           ││  0x00007fed70eb4c6f:   inc    %edx                         ;*iinc {reexecute=0 rethrow=0 return_oop=0}
                   │           ││                                                            ; - java.lang.String::&lt;init&gt;@127 (line 540)
  3.28%            │           ││  0x00007fed70eb4c71:   mov    %edi,%ebx
  2.44%            │           ││  0x00007fed70eb4c73:   inc    %ebx                         ;*iinc {reexecute=0 rethrow=0 return_oop=0}
                   │           ││                                                            ; - java.lang.String::&lt;init&gt;@134 (line 541)
  2.35%            │           ││  0x00007fed70eb4c75:   test   %r8d,%r8d
                   ╰           ││  0x00007fed70eb4c78:   jge    0x00007fed70eb4c04           ;*iflt {reexecute=0 rethrow=0 return_oop=0}
                               ││                                                            ; - java.lang.String::&lt;init&gt;@120 (line 539)

在补丁代码中对应的部分是

 17.28%           ││  0x00007f6b88eb6061:   mov    %edx,%r10d                   ;*iload_2 {reexecute=0 rethrow=0 return_oop=0}
                  ││                                                            ; - java.lang.String::&lt;init&gt;@107 (line 537)
  0.11%           ↘│  0x00007f6b88eb6064:   test   %r10d,%r10d
                   │  0x00007f6b88eb6067:   jl     0x00007f6b88eb669c           ;*iflt {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@108 (line 537)
  0.39%            │  0x00007f6b88eb606d:   cmp    %r13d,%r10d
                   │  0x00007f6b88eb6070:   jge    0x00007f6b88eb66d0           ;*if_icmpge {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@114 (line 537)
  0.66%            │  0x00007f6b88eb6076:   mov    %ebx,%r9d
 13.70%            │  0x00007f6b88eb6079:   cmp    0x8(%rsp),%r10d
  0.01%            │  0x00007f6b88eb607e:   jae    0x00007f6b88eb6671
  0.14%            │  0x00007f6b88eb6084:   movsbl 0x10(%r14,%r10,1),%edi       ;*baload {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@119 (line 538)
  0.37%            │  0x00007f6b88eb608a:   mov    %r9d,%ebx
  0.99%            │  0x00007f6b88eb608d:   inc    %ebx                         ;*iinc {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@131 (line 540)
 12.88%            │  0x00007f6b88eb608f:   movslq %r9d,%rsi                    ;*bastore {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@196 (line 548)
  0.17%            │  0x00007f6b88eb6092:   mov    %r10d,%edx
  0.39%            │  0x00007f6b88eb6095:   inc    %edx                         ;*iinc {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@138 (line 541)
  0.96%            │  0x00007f6b88eb6097:   test   %edi,%edi
  0.02%            │  0x00007f6b88eb6099:   jl     0x00007f6b88eb60dc           ;*iflt {reexecute=0 rethrow=0 return_oop=0}
                   │                                                            ; - java.lang.String::&lt;init&gt;@124 (line 539)

在if_icmpge 和aload_1 字节码指令之间的基线中，我们进行了边界检查，但在补丁代码中我们没有。

所以你最初的假设是正确的：它是关于缺失边界检查消除。

【讨论】：

感谢您调查此谢尔盖。请注意，我使用的字符串是 latin1 但不是 ascii，因此它不会进入您声称它进入的分支。无需通过添加俄语字符来修改它。您提到的分支仅适用于 ascii 字符串（所有字节均为非负数）。另外，您能突出显示相关的组装零件吗？
相关部分以 3.05% 开始 │ │ 0x00007fed70eb4c2e: cmp 0x8(%rsp),%ecx 我也为此bugs.openjdk.java.net/browse/JDK-8278518 提交了问题。看起来在类似这个的其他代码 sn-ps 中也观察到了相同的行为。如果您不介意，我也想为此创建一个 PR。
你能修复我给出的触发 ascii 代码路径的字符串的部分吗？比我接受你的回答。同样与您在错误报告中所写的相反，我不建议将此 0
我已从答案中删除了该部分。我还改写了票。我完全同意你的观点，即这是一个编译器问题，必须在那里进行适当的修复。我们可以建议 Java 修复以及对该问题的完整解释，并让 Oracle 团队对此做出决定。顺便说一句，在String.translateEscapes() 中观察到了类似的行为。