（转）一段代码优化的讨论

优化很多时候是必要的，特别对于瓶颈程序。这里讨论一段代码的优化过程，从而演示一段简单的代码优化过程,并希望得到一些建议。

先描述一下需求：

一个16位数的序列，将其奇数位置放到一个序列，偶数问题放到另外一个序列。注意奇数和偶数序列的长度不一定相同。

最简单的代码：

void CTestClass::SplitToEvenOddSeqs(short *sp,short *dp1,short *dp2,int evenLen,int oddLen)
2 （转）一段代码优化的讨论

这段代码可以达到必要的功能，但他肯定不是优化的。

1．循环中，每次需要访问5个变量。

2．每次循环需要一个判断，4个加法

3．最后的不等式判断也

考虑到dp1和dp2总是同时访问，于是定义一个结构体：

typedef struct tagDstData
（转）一段代码优化的讨论

现在的算法为：

void CTestClass::SplitToEvenOddSeqs(short *sp,TagDstData *dp,int evenLen,int oddLen)
（转）一段代码优化的讨论

这样做以后CPU每次读取dp只需要一次。循环条件少了一次加法。

上面代码每次复制一个16bit的值，总共四个字节要复制两次，考虑把这个地方优化一下。优化后的代码如下：

void CTestClass::SplitToEvenOddSeqs2(short *sp,TagDstData *dp,int evenLen,int oddLen)
（转）一段代码优化的讨论

这里先不考虑字节序的问题。

这样优化后和前面比较起来有那些改进？

1．循环体内只有一个指令；对于++运算，很多处理器都能很好处理。

2．循环条件检查只有一条比较指令

其实这里的检查的比较指令还可以优化一下，因为比较指令比较长，看一下下面的改进：

反正是四个字节的复制，不如下计算好复制的4个字节数量；再循环。

void CTestClass::SplitToEvenOddSeqs3(short *sp,TagDstData *dp,int evenLen,int oddLen)
（转）一段代码优化的讨论

写好上面四段代码，拿VS2005编译一下发现，测试代码如下：

void CompareData(TagDstData *spDst,short *pSrcTest)
（转）一段代码优化的讨论

注：其中CStopWatch是我写的用来计算时间的类。

如果把CompareData中访问spDst的代码注释掉，运行的结果：

Intel® Core™2 CPU 6400 2.13Ghz 1GB

time2 =753945 us

time3 =494852 us

time4 =0 us

time5 =0 us

Intel® Core™2 Duo CPU T7250 @2.00GHz 2.00 GHz 2GB

Time2 = 847431 us

Time3=523269 us

Time4=1 us

Time5 =1 us

Pentium® 4 CPU 2.6 GHz 512MB

Time2 = 613622 us

Time3=616545 us

Time4=1 us

Time5 =1 us

如果使用VC6编译，各种运行结果如下：

Intel® Core™2 CPU 6400 2.13Ghz 1GB

time2 =2041530 us

time3 =1352753 us

time4 =930849 us

time5 =501492 us

Intel® Core™2 Duo CPU T7250 @2.00GHz 2.00 GHz 2GB

time2 =1878766 ustime3 =1380009 ustime4 =959918 us

time5 =523022 us

Pentium® 4 CPU 2.6 GHz 512MB

time2 =2098438 us

time3 =1855219 us

time4 =1068678 us

time5 =610458 us

再把CompareData还原，在VC2005中编译，执行结果如下：

Intel® Core™2 CPU 6400 2.13Ghz 1GB

time2 =1007759 us

time3 =1364986 us

time4 =876046 us

time5 =437623 us

Intel® Core™2 Duo CPU T7250 @2.00GHz 2.00 GHz 2GB

time2 =1103970 ustime3 =1403941 ustime4 =630279 ustime5 =313330 us

Pentium® 4 CPU 2.6 GHz 512MB

time2 =1218860 ustime3 =1743361 ustime4 =478785 us

time5 =241885 us

使用VC6重新编译：

Intel® Core™2 CPU 6400 2.13Ghz 1GB

time2 =2026392 us

time3 =1359155 us

time4 =946604 us

time5 =511307 us

Intel® Core™2 Duo CPU T7250 @2.00GHz 2.00 GHz 2GB

time2 =1921379 ustime3 =1410035 ustime4 =967616 ustime5 =528601 us

Pentium® 4 CPU 2.6 GHz 512MB

time2 =2089173 ustime3 =1849719 ustime4 =1062956 ustime5 =610357 us

当然这里有重复运算对算法的运行时间的影响；但考虑所有的算法都是对同样的内存操作，不考虑。那么我们发现的就是算法的效率提高是明显的。算法运行时间缩短为原来的1/3到1/4。

另外有几个问题需要在这里讨论一下：

1．演示了时间问题的同时，还看到一个奇怪的问题就是如果注释了CompareData，在VC2005上得到的后面两个算法的时间几乎为0。为什么？而VC6的编译没有这样的现象？

2．在VC6上编译得到的结果与VC2005编译得到的结果相比，VC2005结果更好，为什么？（这个很弱智了）

3．我觉得程序还可以再优化，怎么样做？

欢迎大家就这个简单的优化问题，提出讨论。