【发布时间】:2023-03-09 17:43:01
【问题描述】:
我正在用 C++ 编写一个简单的 in-place introsort,为了优化,我试图在分区函数中手动展开一个循环。我将在下面介绍的程序可以编译,但无法正确排序随机列表。
这个程序正在为 RISC-V 架构编译下来,即使在 -Ofast 下,(riscv-64-unknown-elf-gcc) gcc 似乎也不会自行展开循环,进行手动检查每次循环以确保满足结束条件。我想在此检查中留出空间以尝试最大化性能 - 我的理解是一些编译器默认会这样做。
我已经尝试将这个循环分成 5 个块,以在我更进一步之前证明这个概念(可能有多个部分,例如尝试通过 32 组然后尝试通过 16 组等),然后做数组的最后几个元素,就像我以前一样。在展开程序之前运行良好,但现在排序失败,我不知道如何继续。
这是有问题的分区函数:
int* partition(int *startptr, int *endptr) {
int x = *endptr; // threshold
int *j, tmp, tmp2, *i = startptr - 1;
for (j = startptr; j+5 < endptr; j+=5) {
int pj = *j;
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp;
}
pj = j[1];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[2];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[3];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
pj = j[4];
if (pj <= x) {
i += 1;
tmp = *i;
*i = pj;
*j = tmp; }
}
j -= 5;
for (int *y = j; y < endptr; y++) {
int py = y[0];
if (py <= x) {
i += 1;
tmp = *i;
*i = py;
*y = tmp;
}
}
int *incrementedi = i + 1;
tmp = *incrementedi; //p[i+1]
tmp2 = *endptr; //p[end]
*endptr = tmp;
*incrementedi = tmp2;
return i + 1;
}
在程序结束时,我打印出数组并循环遍历,断言它是按预期升序排列的。输出显示为小块排序,但并不完全准确,我不知道如何继续。谢谢!
为澄清而编辑:我正在通过查看 ...-gcc -S 的输出来验证循环实际上并未展开。分区函数很好地内联,但它仍然对每次迭代执行检查。
值得注意的是,出于类似原因,我尽可能使用指针 - 当我们不必将数组索引转换为实际指针时,编译器并未优化我们获得的指令节省。
【问题讨论】:
-
我不是模板元编程的忠实拥护者,但我也不是手动优化的忠实拥护者。这不是您可能希望使用模板让编译器为您生成此 for 的情况之一吗?
-
我在这里和那里都听说过这个,这似乎是个好主意——不过我真的不熟悉这个概念/实现。我会进一步研究,但是如何为此创建一个模板?
-
我想举个例子,但我担心事情可能会混淆。也许我们应该首先使用这个问题来解决循环的问题;那么如果你有工作代码,你可以在这里(或在 CodeReview)发布一个单独的问题,我很乐意提供一个模板版本。
-
好的!一旦我能够让这个概念验证工作并了解它如何影响指令计数,我会询问模板并看看我们可以进一步使用它。谢谢!
-
我不能不管它,所以我还是做了,对不起 :-) godbolt.org/z/M4b050
标签: c++ optimization quicksort loop-unrolling