为什么gcc优化版使用jmp调用函数答案

【问题标题】：Why is gcc using jmp to call a function in the optimized version为什么gcc优化版使用jmp调用函数
【发布时间】：2011-11-02 17:26:54
【问题描述】：

当我对我的程序进行反汇编时，我看到 gcc 在使用 -O3 编译时正在使用 jmp 进行第二个 pthread_wait_barrier 调用。为什么会这样？

使用 jmp 代替 call 有什么好处。编译器在这里玩什么花样？我猜它在这里执行尾调用优化。

顺便说一下，我在这里使用的是静态链接。

__attribute__ ((noinline)) void my_pthread_barrier_wait( 
    volatile int tid, pthread_barrier_t *pbar ) 
{
    pthread_barrier_wait( pbar );
    if ( tid == 0 )
    {
        if ( !rollbacked )
        {
            take_checkpoint_or_rollback( ++iter == 4 );
        }
    }
    //getcontext( &context[tid] );
    SETJMP( tid );
    asm("addr2jmp:"); 
    pthread_barrier_wait( pbar );
    // My suspicion was right, gcc was performing tail call optimization, 
    // which was messing up with my SETJMP/LONGJMP implementation, so here I
    // put a dummy function to avoid that.
    dummy_var = dummy_func();
}

【问题讨论】：

向我们展示源代码。
jmp 只是将执行转移到一个新位置。 call 将东西压入堆栈，因此使用起来稍微贵一些。
看起来它正在执行尾调用优化。
可以添加汇编代码吗？

标签： c linux gcc x86

【解决方案1】：

由于您没有显示示例，我只能猜测：被调用函数与调用函数具有相同的返回类型，这就像

return func2(...)

或根本没有返回类型 (void)。

在这种情况下，“我们”将“我们的”返回地址留在堆栈上，留给“他们”使用它返回给“我们的”调用者。

【讨论】：

【解决方案2】：

也许这是一个尾递归调用。 GCC 有一些通过尾递归优化。

但是你为什么要打扰呢？如果被调用函数是extern 函数，那么它是公共的，GCC 应该按照 ABI 约定调用它（这意味着它遵循调用约定）。

你不应该关心函数是否被 jmp 调用。

它也可能是对动态库函数的调用（即使用 PLT 表示 dynamic linking）

【讨论】：

【解决方案3】：

jmp 的开销比 call 少。 jmp 只是跳转，调用将一些东西压入堆栈并跳转

【讨论】：

-1 表示不完整的答案。我也知道 jmp 的开销较小。问题是 gcc 如何使用 jmp 来执行与优化版本中的 call 相同的功能。
您在评论中提到的内容在问题中没有明确说明，也许您应该对其进行编辑。我没有回答的唯一问题陈述是“编译器在这里玩什么技巧？”，这是不清楚和蹩脚的英语。
JMP 的开销确实更少。现在，您跳转到而不是调用的函数必须在某个时候返回。因此，返回地址必须在 JMP 之前或在函数结束时被压入堆栈，您需要调用另一个 JMP 以返回您来自的位置，这一切最终都非常相似。由于没有堆栈操作，您可以使用双 JMP 节省几个周期，但您必须将返回地址存储在寄存器或其他东西中。

【解决方案4】：

我假设这是一个尾调用，这意味着当前函数返回未修改的被调用函数的结果，或者（对于返回 void 的函数）在函数调用之后立即返回。无论哪种情况，都不需要使用call。

call 指令执行两个功能。首先，它将调用后指令的地址压入堆栈作为返回地址。然后它跳转到呼叫的目的地。 ret 从堆栈中弹出返回地址并跳转到该位置。

由于调用函数返回的是被调用函数的结果，所以在被调用函数返回后，操作没有理由返回给它。因此，只要有可能并且如果优化级别允许，GCC 将在函数调用之前销毁其堆栈帧，以便堆栈顶部包含调用它的函数的返回地址，然后简单地跳转到被调用函数。结果是，被调用函数返回时，直接返回第一个函数，而不是调用函数。

【讨论】：

【解决方案5】：

您永远不会知道，但可能的原因之一是“缓存”（以及其他原因，例如已经提到的尾调用优化）。

内联可以让代码更快，也可以让代码更慢，因为更多的代码意味着更少的代码会同时在 L1 缓存中。

JMP 允许编译器以很少或根本没有成本重用同一段代码。现代处理器是深度流水线的，流水线通过 JMP 没有问题（这里不可能出现错误预测！）。在平均情况下，它将花费 1-2 个周期，在最好的情况下为零周期，因为 CPU 必须等待前一条指令才能退出。这显然完全取决于各自的单独代码。
原则上，编译器甚至可以用几个具有共同部分的函数来做到这一点。

【讨论】：