【问题标题】:Why is gcc using jmp to call a function in the optimized version为什么gcc优化版使用jmp调用函数
【发布时间】:2011-11-02 17:26:54
【问题描述】:

当我对我的程序进行反汇编时,我看到 gcc 在使用 -O3 编译时正在使用 jmp 进行第二个 pthread_wait_barrier 调用。为什么会这样?

使用 jmp 代替 call 有什么好处。编译器在这里玩什么花样?我猜它在这里执行尾调用优化。

顺便说一下,我在这里使用的是静态链接。

__attribute__ ((noinline)) void my_pthread_barrier_wait( 
    volatile int tid, pthread_barrier_t *pbar ) 
{
    pthread_barrier_wait( pbar );
    if ( tid == 0 )
    {
        if ( !rollbacked )
        {
            take_checkpoint_or_rollback( ++iter == 4 );
        }
    }
    //getcontext( &context[tid] );
    SETJMP( tid );
    asm("addr2jmp:"); 
    pthread_barrier_wait( pbar );
    // My suspicion was right, gcc was performing tail call optimization, 
    // which was messing up with my SETJMP/LONGJMP implementation, so here I
    // put a dummy function to avoid that.
    dummy_var = dummy_func();
}

【问题讨论】:

  • 向我们展示源代码。
  • jmp 只是将执行转移到一个新位置。 call 将东西压入堆栈,因此使用起来稍微贵一些。
  • 看起来它正在执行尾调用优化。
  • 可以添加汇编代码吗?

标签: c linux gcc x86


【解决方案1】:

由于您没有显示示例,我只能猜测:被调用函数与调用函数具有相同的返回类型,这就像

return func2(...)

或根本没有返回类型 (void)。

在这种情况下,“我们”将“我们的”返回地址留在堆栈上,留给“他们”使用它返回给“我们的”调用者。

【讨论】:

    【解决方案2】:

    也许这是一个尾递归调用。 GCC 有一些通过尾递归优化。

    但是你为什么要打扰呢?如果被调用函数是extern 函数,那么它是公共的,GCC 应该按照 ABI 约定调用它(这意味着它遵循调用约定)。

    你不应该关心函数是否被 jmp 调用。

    它也可能是对动态库函数的调用(即使用 PLT 表示 dynamic linking

    【讨论】:

      【解决方案3】:

      jmp 的开销比 call 少。 jmp 只是跳转,调用将一些东西压入堆栈并跳转

      【讨论】:

      • -1 表示不完整的答案。我也知道 jmp 的开销较小。问题是 gcc 如何使用 jmp 来执行与优化版本中的 call 相同的功能。
      • 您在评论中提到的内容在问题中没有明确说明,也许您应该对其进行编辑。我没有回答的唯一问题陈述是“编译器在这里玩什么技巧?”,这是不清楚和蹩脚的英语。
      • JMP 的开销确实更少。现在,您跳转到而不是调用的函数必须在某个时候返回。因此,返回地址必须在 JMP 之前或在函数结束时被压入堆栈,您需要调用另一个 JMP 以返回您来自的位置,这一切最终都非常相似。由于没有堆栈操作,您可以使用双 JMP 节省几个周期,但您必须将返回地址存储在寄存器或其他东西中。
      【解决方案4】:

      我假设这是一个尾调用,这意味着当前函数返回未修改的被调用函数的结果,或者(对于返回 void 的函数)在函数调用之后立即返回。无论哪种情况,都不需要使用call

      call 指令执行两个功能。首先,它将调用后指令的地址压入堆栈作为返回地址。然后它跳转到呼叫的目的地。 ret 从堆栈中弹出返回地址并跳转到该位置。

      由于调用函数返回的是被调用函数的结果,所以在被调用函数返回后,操作没有理由返回给它。因此,只要有可能并且如果优化级别允许,GCC 将在函数调用之前销毁其堆栈帧,以便堆栈顶部包含调用它的函数的返回地址,然后简单地跳转到被调用函数。结果是,被调用函数返回时,直接返回第一个函数,而不是调用函数。

      【讨论】:

        【解决方案5】:

        您永远不会知道,但可能的原因之一是“缓存”(以及其他原因,例如已经提到的尾调用优化)。

        内联可以让代码更快,也可以让代码更慢,因为更多的代码意味着更少的代码会同时在 L1 缓存中。

        JMP 允许编译器以很少或根本没有成本重用同一段代码。现代处理器是深度流水线的,流水线通过 JMP 没有问题(这里不可能出现错误预测!)。 在平均情况下,它将花费 1-2 个周期,在最好的情况下为零周期,因为 CPU 必须等待前一条指令才能退出。这显然完全取决于各自的单独代码。
        原则上,编译器甚至可以用几个具有共同部分的函数来做到这一点。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2016-09-22
          • 2016-06-22
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2018-08-01
          相关资源
          最近更新 更多