【发布时间】:2020-11-05 21:17:03
【问题描述】:
在一个相当大且复杂的 C 程序中,运行时间是第一要务,我必须决定如何编写这样的代码片段:
for (int i=0; i < md->global_grid[ic[0]][ic[1]][ic[2]].parts_num; i++)
{
if (md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core.GroupID == RESERVED_GROUP)
{
md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core.GroupID = GroupID;
fmd_real_t mass = md->potsys.atomkinds[md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core.atomkind].mass;
for (int d=0; d<3; d++)
md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core.v[d] -= MomentumSum[d] / (AtomsNum * mass);
}
}
使用下面的pc 之类的指针可以使其更具可读性和紧凑性:
for (int i=0; i < md->global_grid[ic[0]][ic[1]][ic[2]].parts_num; i++)
{
if (md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core.GroupID == RESERVED_GROUP)
{
particle_core_t *pc = &md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core;
pc->GroupID = GroupID;
fmd_real_t mass = md->potsys.atomkinds[pc->atomkind].mass;
for (int d=0; d<3; d++)
pc->v[d] -= MomentumSum[d] / (AtomsNum * mass);
}
}
但是取消引用 pc 不会占用一些 CPU 时间吗?我通常使用第一种形式,有时使用第二种形式,但不知道哪个更好。我使用 gcc 的-O3 进行优化。
我知道测量运行时间并进行比较可能会提供答案,但了解有经验的专业程序员的想法总是很有帮助的。特别是,仅仅比较时间并不能说明为什么一种形式更快。
【问题讨论】:
-
取消引用
pc可能需要 CPU 时间,但md->global_grid[ic[0]][ic[1]][ic[2]].parts[i].core也是如此...您是否尝试查看生成的程序集以查看它是相同还是不同? -
@jtbandes,在第一个中,我完全依赖编译器进行优化。不,我还没有看到生成的程序集。我在组装方面没有太多经验。
-
也许这会帮助您入门:godbolt.org/z/aTrWMh
-
首先,您还没有证明第二种形式实际上更慢。 但是取消引用 pc 不会占用一些 CPU 时间吗?我通常使用第一种形式,有时使用第二种形式,但不知道哪个更好。如果你不能说,没关系。 总是编写可读的代码。处理性能问题当它们变得既明显又引起实际问题时。牺牲可读性只是为了让一个需要三个小时的过程减少 50 毫秒,这比浪费时间更糟糕 - 从字面上看。它使错误更有可能出现 - 并使它们更难定位和修复。
-
@AndrewHenle,我认为您是对的,尽管在这种情况下,该过程可能需要大约一周的时间。非常感谢。很高兴看到喜欢互相帮助的人。 :)
标签: c performance gcc readability