【发布时间】:2012-11-04 10:27:24
【问题描述】:
在 C 中实现类似 OO 的代码封装和多态性的常用方法是将不透明指针返回到包含一些函数指针的结构。这是一种非常常见的模式,例如在 Linux 内核中。
使用函数指针而不是函数调用会引入开销,由于缓存,该开销几乎可以忽略不计,正如其他问题中已经讨论的那样。
但是,使用 GCC (>4.6) 的新 -fwhole-program 和 -flto 优化选项,情况发生了变化。
libPointers.c
#include <stdlib.h>
#include "libPointers.h"
void do_work(struct worker *wrk, const int i)
{
wrk->datum += i;
}
struct worker *libPointers_init(const int startDatum)
{
struct worker *wrk = malloc (sizeof (struct worker));
*wrk = (struct worker) {
.do_work = do_work,
.datum = startDatum
};
return wrk;
}
libPointers.h
#ifndef __LIBPOINTERS_H__
#define __LIBPOINTERS_H__
struct worker {
int datum;
void (*do_work)(struct worker *, int i);
};
extern void do_work (struct worker *elab, const int i);
struct worker *libPointers_init(const int startDatum);
#endif //__LIBPOINTERS_H__
testPointers.c
#include <stdio.h>
#include "libPointers.h"
int main (void)
{
unsigned long i;
struct worker *wrk;
wrk = libPointers_init(56);
for (i = 0; i < 1e10; i++) {
#ifdef USE_POINTERS
wrk->do_work(wrk,i);
#else
do_work(wrk,i);
#endif
}
printf ("%d\n", wrk->datum);
}
使用 -O3 编译,但没有 -flto -fwhole-program 标志,无论 USE_POINTERS 是否为#defined,testPointers 在我的机器上执行大约需要 25 秒。
如果我打开 -flto -fwhole-program 标志,使用 USE_POINTERS #defined testPointers 大约需要 25 秒,但如果使用函数调用则大约需要 14 秒。
这是完全预期的行为,因为我知道编译器将内联并优化循环中的函数。但是,我想知道是否有办法帮助编译器告诉它函数指针是常量,从而允许它也优化这种情况。
对于那些使用 cmake 的人,这是我的编译方式
CMakeLists.txt
set (CMAKE_C_FLAGS "-O3 -fwhole-program -flto")
#set (CMAKE_C_FLAGS "-O3")
add_executable(testPointers
libPointers.c
testPointers.c
)
【问题讨论】:
-
如果在循环外的局部函数指针中捕获
wrk->do_work的值,然后在循环内使用该局部变量会怎样? -
你怎么敢问一个有意义的好问题? :P(+1,这很有趣。)
-
一个问题是
do_work做的工作非常少。如果它确实做了一些重要的事情,呼叫速度的差异将更难衡量(因此不是很显着)。 -
我明白,但 getter/setter 函数非常常见,而且工作量更少。通过整个程序优化,我们可以在最终二进制文件中调解对数据的访问和对这些简单操作的全面优化。
-
@GregHewgill 我这样改了,不幸的是没有区别 int main (void) { unsigned long i;结构工人 *wrk; wrk = libPointers_init(56); #ifdef USE_POINTERS void (*const f_do_work)(struct worker *, int i) = wrk->do_work; #endif for (i = 0; i datum); }
标签: c optimization gcc linux-kernel function-pointers