【问题标题】:C picture rotation optimizationC图片旋转优化
【发布时间】:2014-12-06 01:07:30
【问题描述】:

这是给所有 C 专家的..

第一个函数采用一个表示图像像素的二维矩阵 src[dim][dim],并将其旋转 90 度,形成目标矩阵 dst[dim][dim]。第二个函数采用相同的 src[dim][dim] 并通过将每个像素值替换为其周围所有像素的平均值(在以该像素为中心的最大 3 × 3 窗口中)来平滑图像。

我需要考虑时间和周期来优化程序,我还能如何优化以下内容?:

void rotate(int dim, pixel *src, pixel *dst,) 
{
    int i, j, nj;
    nj = 0;

    /* below are the main computations for the implementation of rotate. */
    for (j = 0; j < dim; j++) {
        nj = dim-1-j;               /* Code Motion moved operation outside inner for loop */
        for (i = 0; i < dim; i++) {
            dst[RIDX(nj, i, dim)] = src[RIDX(i, j, dim)];
        }
    }
}



/* A struct used to compute averaged pixel value */
typedef struct {
    int red;
    int green;
    int blue;
    int num;
} pixel_sum;

/* Compute min and max of two integers, respectively */
static int minimum(int a, int b) 
{ return (a < b ? a : b); }
static int maximum(int a, int b) 
{ return (a > b ? a : b); }

/* 
 * initialize_pixel_sum - Initializes all fields of sum to 0 
 */
static void initialize_pixel_sum(pixel_sum *sum) 
{
    sum->red = sum->green = sum->blue = 0;
    sum->num = 0;
    return;
}

/* 
 * accumulate_sum - Accumulates field values of p in corresponding 
 * fields of sum 
 */
static void accumulate_sum(pixel_sum *sum, pixel p) 
{
    sum->red += (int) p.red;
    sum->green += (int) p.green;
    sum->blue += (int) p.blue;
    sum->num++;
    return;
}

/* 
 * assign_sum_to_pixel - Computes averaged pixel value in current_pixel 
 */
static void assign_sum_to_pixel(pixel *current_pixel, pixel_sum sum) 
{
    current_pixel->red = (unsigned short) (sum.red/sum.num);
    current_pixel->green = (unsigned short) (sum.green/sum.num);
    current_pixel->blue = (unsigned short) (sum.blue/sum.num);
    return;
}

/* 
 * avg - Returns averaged pixel value at (i,j) 
 */
static pixel avg(int dim, int i, int j, pixel *src) 
{
    int ii, jj;
    pixel_sum sum;
    pixel current_pixel;

    initialize_pixel_sum(&sum);
    for(ii = maximum(i-1, 0); ii <= minimum(i+1, dim-1); ii++) 
        for(jj = maximum(j-1, 0); jj <= minimum(j+1, dim-1); jj++) 
            accumulate_sum(&sum, src[RIDX(ii, jj, dim)]);

    assign_sum_to_pixel(&current_pixel, sum);
    return current_pixel;
}

void smooth(int dim, pixel *src, pixel *dst) 
{
    int i, j;


    /* below are the main computations for the implementation of the smooth function. */

    for (j = 0; j < dim; j++)
        for (i = 0; i < dim; i++)
            dst[RIDX(i, j, dim)] = avg(dim, i, j, src);
}

我将 dim-1-j 移到了 rotate 的内部 for 循环之外,这减少了程序中使用的时间和周期,但是还有其他东西可以用于这两个 main 函数吗?

谢谢!

【问题讨论】:

  • 那么,您是在寻求帮助优化一段正常运行的代码吗?
  • 是的,stackoverflow 上不允许这样做吗?我被困在还有什么可以优化的地方。认为更有经验的 C 程序员可以略读并指出明显的内容
  • 用指针和简单的加法运算代替算术。例如在旋转设置一个 srcPtr 和 dstPtr。在源代码的每一行上计算指针,然后 *dstPtr = *srcPtr++; dstPtr+= 音高。这避免了每个像素的乘法等
  • 克里斯,这不是 gcc 编译器自动完成的吗?
  • 一些编译器有优化设置——大小或速度。检查您的文档以获取任何可用的优化设置。是的,你的问题当然是允许的,但软性答案(例如这个)和意见会很猖獗,而准确的答案很少。通过询问,我只是想确定是否有更明确的问题可以解决(具体问题)

标签: c optimization rotation pixel


【解决方案1】:

您可以进行多种优化;一些编译器可能会为你做,但最好自己写出来。例如:将常量表达式移出循环(你这样做过一次;还有更多地方可以这样做——不要忘记每次迭代都会检查条件,所以也要以这种方式优化循环条件)并且,正如克里斯指出的那样,使用递增的指针而不是完整的数组索引。我还看到了一些可以内联重写的函数调用。

我还想指出一篇关于 stackoverflow 的文章,内容是关于矩阵乘法和优化它以使用处理器缓存。本质上,它首先将数组重新排列到适合缓存的内存块中,然后对这些块执行操作,然后移动到下一个块,依此类推。您可以将这些想法重新用于轮换。 见Optimizing assembly generated by Microsoft Visual Studio Compiler

【讨论】:

    【解决方案2】:

    对于旋转,您可以通过分解成更小的图像切片来更好地利用缓存。

    为了平滑,

    1)在主双循环内部展开整个操作,不要使用这些中间微函数;

    2) 完全展开累加和平均(它只是 9 项的总和),对索引进行硬编码;

    3) 在沿边缘(并非所有 9 个像素都可用)和中间的不同循环中进行处理。中间值得最大优化(尤其是(2));

    4) 尽量避免除以 9(您可以考虑用表查找替换除数)。

    通过手工矢量化优化 (SSE/AVX) 可以获得最高速度,但这需要一定的经验。多核并行化也是一种选择。

    给您一个想法,可以在不到 0.5 毫秒(单核,Core i7@3.4 GHz)内对 1 MB 灰度图像应用 3x3 平均值。对于 1 Mpixel RGB 图像,我们可以推断为 2 ms 左右。

    【讨论】:

      【解决方案3】:

      由于您无法提供正在运行的程序,因此这些只是可以提供帮助的想法:

      • 假设值在 [0,256) 范围内,然后使用 uint8_t 作为您的 rgbn 值。这占用了 int 版本的 1/4 内存,但可能需要更多周期;如果没有更多的知识,我不知道这是否会更快。这个想法是,由于您使用 1/4 的内存,您更有可能在 L1-L3 缓存中保留更多值。
      • 由于无论您是否旋转,您的邻居都是相同的,因此请在旋转前计算平均值。我怀疑这会有助于缓存,但又不能确定;这取决于一些我看不到的代码。
      • 并行化外循环。由于您有简单的网格尺寸并且输入和输出没有读/写冲突,这是一件微不足道的事情。这肯定会花费更多周期,但可能会更快。
      • 硬编码你的边缘;您目前在每次调用平均值时都在执行最大和最小操作,但对于内部点,它是不需要的。分别计算边和内点。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-07-21
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多