C图片旋转优化答案

【问题标题】：C picture rotation optimizationC图片旋转优化
【发布时间】：2014-12-06 01:07:30
【问题描述】：

这是给所有 C 专家的..

第一个函数采用一个表示图像像素的二维矩阵 src[dim][dim]，并将其旋转 90 度，形成目标矩阵 dst[dim][dim]。第二个函数采用相同的 src[dim][dim] 并通过将每个像素值替换为其周围所有像素的平均值（在以该像素为中心的最大 3 × 3 窗口中）来平滑图像。

我需要考虑时间和周期来优化程序，我还能如何优化以下内容？：

void rotate(int dim, pixel *src, pixel *dst,) 
{
    int i, j, nj;
    nj = 0;

    /* below are the main computations for the implementation of rotate. */
    for (j = 0; j < dim; j++) {
        nj = dim-1-j;               /* Code Motion moved operation outside inner for loop */
        for (i = 0; i < dim; i++) {
            dst[RIDX(nj, i, dim)] = src[RIDX(i, j, dim)];
        }
    }
}



/* A struct used to compute averaged pixel value */
typedef struct {
    int red;
    int green;
    int blue;
    int num;
} pixel_sum;

/* Compute min and max of two integers, respectively */
static int minimum(int a, int b) 
{ return (a < b ? a : b); }
static int maximum(int a, int b) 
{ return (a > b ? a : b); }

/* 
 * initialize_pixel_sum - Initializes all fields of sum to 0 
 */
static void initialize_pixel_sum(pixel_sum *sum) 
{
    sum->red = sum->green = sum->blue = 0;
    sum->num = 0;
    return;
}

/* 
 * accumulate_sum - Accumulates field values of p in corresponding 
 * fields of sum 
 */
static void accumulate_sum(pixel_sum *sum, pixel p) 
{
    sum->red += (int) p.red;
    sum->green += (int) p.green;
    sum->blue += (int) p.blue;
    sum->num++;
    return;
}

/* 
 * assign_sum_to_pixel - Computes averaged pixel value in current_pixel 
 */
static void assign_sum_to_pixel(pixel *current_pixel, pixel_sum sum) 
{
    current_pixel->red = (unsigned short) (sum.red/sum.num);
    current_pixel->green = (unsigned short) (sum.green/sum.num);
    current_pixel->blue = (unsigned short) (sum.blue/sum.num);
    return;
}

/* 
 * avg - Returns averaged pixel value at (i,j) 
 */
static pixel avg(int dim, int i, int j, pixel *src) 
{
    int ii, jj;
    pixel_sum sum;
    pixel current_pixel;

    initialize_pixel_sum(&sum);
    for(ii = maximum(i-1, 0); ii <= minimum(i+1, dim-1); ii++) 
        for(jj = maximum(j-1, 0); jj <= minimum(j+1, dim-1); jj++) 
            accumulate_sum(&sum, src[RIDX(ii, jj, dim)]);

    assign_sum_to_pixel(&current_pixel, sum);
    return current_pixel;
}

void smooth(int dim, pixel *src, pixel *dst) 
{
    int i, j;


    /* below are the main computations for the implementation of the smooth function. */

    for (j = 0; j < dim; j++)
        for (i = 0; i < dim; i++)
            dst[RIDX(i, j, dim)] = avg(dim, i, j, src);
}

我将 dim-1-j 移到了 rotate 的内部 for 循环之外，这减少了程序中使用的时间和周期，但是还有其他东西可以用于这两个 main 函数吗？

谢谢！

【问题讨论】：

那么，您是在寻求帮助优化一段正常运行的代码吗？
是的，stackoverflow 上不允许这样做吗？我被困在还有什么可以优化的地方。认为更有经验的 C 程序员可以略读并指出明显的内容
用指针和简单的加法运算代替算术。例如在旋转设置一个 srcPtr 和 dstPtr。在源代码的每一行上计算指针，然后 *dstPtr = *srcPtr++; dstPtr+= 音高。这避免了每个像素的乘法等
克里斯，这不是 gcc 编译器自动完成的吗？
一些编译器有优化设置——大小或速度。检查您的文档以获取任何可用的优化设置。是的，你的问题当然是允许的，但软性答案（例如这个）和意见会很猖獗，而准确的答案很少。通过询问，我只是想确定是否有更明确的问题可以解决（具体问题）

标签： c optimization rotation pixel

【解决方案1】：

您可以进行多种优化；一些编译器可能会为你做，但最好自己写出来。例如：将常量表达式移出循环（你这样做过一次；还有更多地方可以这样做——不要忘记每次迭代都会检查条件，所以也要以这种方式优化循环条件）并且，正如克里斯指出的那样，使用递增的指针而不是完整的数组索引。我还看到了一些可以内联重写的函数调用。

我还想指出一篇关于 stackoverflow 的文章，内容是关于矩阵乘法和优化它以使用处理器缓存。本质上，它首先将数组重新排列到适合缓存的内存块中，然后对这些块执行操作，然后移动到下一个块，依此类推。您可以将这些想法重新用于轮换。见Optimizing assembly generated by Microsoft Visual Studio Compiler

【讨论】：

【解决方案2】：

对于旋转，您可以通过分解成更小的图像切片来更好地利用缓存。

为了平滑，

1）在主双循环内部展开整个操作，不要使用这些中间微函数；

2) 完全展开累加和平均（它只是 9 项的总和），对索引进行硬编码；

3) 在沿边缘（并非所有 9 个像素都可用）和中间的不同循环中进行处理。中间值得最大优化（尤其是（2））；

4) 尽量避免除以 9（您可以考虑用表查找替换除数）。

通过手工矢量化优化 (SSE/AVX) 可以获得最高速度，但这需要一定的经验。多核并行化也是一种选择。

给您一个想法，可以在不到 0.5 毫秒（单核，Core i7@3.4 GHz）内对 1 MB 灰度图像应用 3x3 平均值。对于 1 Mpixel RGB 图像，我们可以推断为 2 ms 左右。

【讨论】：

【解决方案3】：

由于您无法提供正在运行的程序，因此这些只是可以提供帮助的想法：

假设值在 [0,256) 范围内，然后使用 uint8_t 作为您的 rgbn 值。这占用了 int 版本的 1/4 内存，但可能需要更多周期；如果没有更多的知识，我不知道这是否会更快。这个想法是，由于您使用 1/4 的内存，您更有可能在 L1-L3 缓存中保留更多值。
由于无论您是否旋转，您的邻居都是相同的，因此请在旋转前计算平均值。我怀疑这会有助于缓存，但又不能确定；这取决于一些我看不到的代码。
并行化外循环。由于您有简单的网格尺寸并且输入和输出没有读/写冲突，这是一件微不足道的事情。这肯定会花费更多周期，但可能会更快。
硬编码你的边缘；您目前在每次调用平均值时都在执行最大和最小操作，但对于内部点，它是不需要的。分别计算边和内点。

【讨论】：