【发布时间】:2022-01-22 17:44:43
【问题描述】:
更新: 相关 GCC 错误报告:https://gcc.gnu.org/bugzilla/show_bug.cgi?id=103798
我测试了以下代码:
#include <string_view>
size_t findFirstE_slow(std::string_view sv) {
return sv.find_first_of("eE");
}
size_t findFirstE_fast(std::string_view sv) {
auto it{sv.begin()};
for (; it != sv.end() && *it != 'e' && *it != 'E'; ++it)
;
return it == sv.end() ? std::string_view::npos : size_t(it - sv.begin());
}
快速台架测试:https://quick-bench.com/q/dSU3EBzI8MtGOFn_WLpK3ErT3ok
编译器资源管理器输出:https://godbolt.org/z/eW3sx61vz
findFirstE_slow() 和 firstFirstE_fast() 函数都打算做同样的事情,但 findFirstE_slow() 运行速度明显慢(在快速基准测试中至少慢 5 倍)。
这是x86-64 gcc (trunk) -std=c++20 -O3 的程序集输出。
findFirstE_slow():
.LC0:
.string "eE"
findFirstE_slow(std::basic_string_view<char, std::char_traits<char> >):
push r12
push rbp
push rbx
test rdi, rdi
je .L4
mov rbx, rdi
mov rbp, rsi
xor r12d, r12d
jmp .L3
.L8:
add r12, 1
cmp rbx, r12
je .L4
.L3:
movsx esi, BYTE PTR [rbp+0+r12]
mov edx, 2
mov edi, OFFSET FLAT:.LC0
call memchr
test rax, rax
je .L8
mov rax, r12
pop rbx
pop rbp
pop r12
ret
.L4:
mov r12, -1
pop rbx
pop rbp
mov rax, r12
pop r12
ret
findFirstE_fast():
findFirstE_fast(std::basic_string_view<char, std::char_traits<char> >):
add rdi, rsi
cmp rdi, rsi
je .L13
mov rax, rsi
jmp .L12
.L15:
add rax, 1
cmp rdi, rax
je .L13
.L12:
movzx edx, BYTE PTR [rax]
and edx, -33
cmp dl, 69
jne .L15
sub rax, rsi
ret
.L13:
mov rax, -1
ret
有趣的是,findFirstE_slow() 为sv 中的每个字符调用memchr("eE", *current_char, 2)。
另一方面,findFirstE_fast() 通过将 sv 中的每个字符与 'e' 和 'E' 进行比较,实现了我们的合理预期。
Clang 生成类似的输出。
问题:这里有没有像我测试中的短字符串那样错过优化?我是否缺少让 GCC 生成更快代码的东西?
【问题讨论】:
标签: c++ assembly gcc clang compiler-optimization