【问题标题】:malloc once, then distribute memory over struct arraysmalloc 一次,然后在结构数组上分配内存
【发布时间】:2016-11-25 16:57:30
【问题描述】:

我有一个具有以下内存布局的结构:

uint32_t  
variable length array of type uint16_t
variable length array of type uint16_t

由于数组的可变长度,我有指向这些数组的指针,有效:

struct struct1 {
  uint32_t n;
  uint16_t *array1;
  uint16_t *array2;
};
typedef struct struct1 struct1;

现在,当分配这些结构时,我看到两个选项:

A) malloc 结构本身,然后分别为数组分配空间,并将结构中的指针设置为指向正确的内存位置:

uint32_t n1 = 10;
uint32_t n2 = 20;

struct1 *s1 = malloc(sizeof(struct1));
uint16 *array1 = malloc(sizeof(uint16) * n1));
uint16 *array2 = malloc(sizeof(uint16) * n2));
s1->n = n1;
s1->array1 = array1;
s1->array2 = array2;

B) 所有组合的 malloc 内存,然后将内存“分配”到结构上:

struct1 *s1 = malloc(sizeof(struct1) + (n1 + n2) * sizeof(uint16_t));
s1->n = n1;
s1->array1 = s1 + sizeof(struct1);
s1->array2 = s1 + sizeof(struct1) + n1 * sizeof(uint16_t);

请注意,array1 和 array2 不大于几 KB,通常不需要很多 struct1。但是,缓存效率是一个问题,因为数字数据处理是使用此结构完成的。

  1. 方法 B) 是否可行,并且在内存局部性方面是否比 A 更好(更快)?
  2. 我对C不是很熟悉,有没有更好的方法来做B(或A),即。使用 memcpy 或 realloc 什么的?
  3. 在这种情况下还有什么需要注意的吗?

请注意,现在我在 linux 上使用 gcc(C89?),但如有必要,可以使用 C99/C11。提前致谢。

编辑:进一步澄清:数组的大小在创建后永远不会改变。多个 struct1 并不总是一次分配,而是在程序运行时偶尔分配。

【问题讨论】:

  • 您正在考虑的与“struct hack”或 C99 中的“灵活数组成员”有关。这些只允许一个可变长度数组。它们还会自动处理您可能忽略的对齐要求问题。

标签: c arrays memory-management malloc


【解决方案1】:

我认为您的选项 A 更简洁,并且会以更明智的方式扩展。想象一下当其中一个结构中的数组变大时必须realloc 空间:在选项A 中,您可以realloc 该内存,因为它在逻辑上没有附加到任何其他东西。在选项 B 中,您需要添加额外的逻辑以确保不会破坏其他数组。

我也认为(即使在 C89 中,但我可能是错的)这并没有错:

struct1 *s1 = malloc(sizeof(struct1));
s1->array1 = malloc(sizeof(uint16) * n1));
s1->array2 = malloc(sizeof(uint16) * n2));
s1->n = n1;

上面取出了中间人数组。我认为它更干净,因为您立即看到您正在为结构中的指针分配空间。

我之前将您的选项 B 用于 2D 数组,我只分配一个空间并在我的代码中使用逻辑规则将其用作 2D 空间。当我希望它是一个矩形 2D 空间时,这很有用,所以当我增加它时,我总是增加每一行或每一列。换句话说,我永远不想拥有异构数组大小。

更新:'数组的大小永远不会改变'

因为您澄清了您的结构/数组永远不需要重新分配,我认为选项 B 不太糟糕。对于这个应用程序,它似乎仍然是比选项 A 更糟糕的解决方案,以下是我这么认为的原因:

  • malloc 进行了优化,因此与单独分配空间相比,分配单个空间不会有太多优化。
  • 其他工程师查看并立即理解您的代码的能力会降低。需要明确的是,任何有能力的软件工程师都应该能够查看选项 B 并弄清楚代码的编写者在做什么,但这很可能会浪费工程师的大脑周期,并可能导致初级工程师误解代码并创建一个错误。

因此,如果您对代码进行彻底的注释,并且您的应用程序绝对需要您尽可能优化所有内容,代价是干净且逻辑合理的代码(其中内存空间和数据结构以类似的方式在逻辑上分离),而且您知道这种优化比一个好的编译器(如 Clang)可以做的更好,那么选项 B 可能是一个更好的选择。

更新:测试

本着自我批评的精神,我想看看我是否可以评估差异。所以我写了两个程序(一个用于选项 A,一个用于选项 B)并在关闭优化的情况下编译它们。我使用了 FreeBSD 虚拟机来尽可能清洁环境,我使用了gcc

这是我用来测试这两种方法的程序:

选项A.c:

#include <stdlib.h>
#include <stdio.h>
#include <time.h>

#define NSIZE   100000
#define NTESTS  10000000

struct test_struct {
    int n;
    int *array1;
    int *array2;
};

void freeA(struct test_struct *input) {
    free(input->array1);
    free(input->array2);
    free(input);
    return;
}

void optionA() {
    struct test_struct *s1 = malloc(sizeof(*s1));
    s1->array1 = malloc(sizeof(*(s1->array1)) * NSIZE);
    s1->array2 = malloc(sizeof(*(s1->array1)) * NSIZE);
    s1->n = NSIZE;
    freeA(s1);
    s1 = 0;
    return;
}

int main() {
    clock_t beginA = clock();
    int i;
    for (i=0; i<NTESTS; i++) {
        optionA();
    }
    clock_t endA = clock();
    int time_spent_A = (endA - beginA);
    printf("Time spent for option A: %d\n", time_spent_A);
    return 0;
}

选项B.c:

#include <stdlib.h>
#include <stdio.h>
#include <time.h>

#define NSIZE   100000
#define NTESTS  10000000

struct test_struct {
    int n;
    int *array1;
    int *array2;
};

void freeB(struct test_struct *input) {
    free(input);
    return;
}

void optionB() {
    struct test_struct *s1 = malloc(sizeof(*s1) + 2*NSIZE*sizeof(*(s1->array1)));
    s1->array1 = s1 + sizeof(*s1);
    s1->array2 = s1 + sizeof(*s1) + NSIZE*sizeof(*(s1->array1));
    s1->n = NSIZE;
    freeB(s1);
    s1 = 0;
    return;
}

int main() {
    clock_t beginB = clock();
    int i;
    for (i=0; i<NTESTS; i++) {
        optionB();
    }
    clock_t endB = clock();
    int time_spent_B = (endB - beginB);
    printf("Time spent for option B: %d\n", time_spent_B);
    return 0;
}

这些测试的结果以时钟为单位(请参阅clock(3) 了解更多信息)。

 Series | Option A | Option B
------------------------------
 1      | 332      | 158
------------------------------
 2      | 334      | 155
------------------------------
 3      | 334      | 156
------------------------------
 4      | 333      | 154
------------------------------
 5      | 339      | 156
------------------------------
 6      | 334      | 155
------------------------------
 avg    | 336.0    | 155.7
------------------------------

请注意,这些速度仍然非常快,并且在数百万次测试中转换为毫秒。我还发现 Clang (cc) 在优化方面优于 gcc。在我的机器上,即使在编写了一个将数据写入数组的方法之后(以确保它们不会被优化而不再存在),在使用 cc 编译时,这两种方法之间也没有区别。

【讨论】:

  • 哇,非常感谢您的努力!考虑到这一事实,我可能不会经常分配新结构,我将使用 A 直到 profiling 说服我否则。
【解决方案2】:

我建议将两者混合:

  1. 在一次调用中分配结构(现在是结构数组);

  2. 在一次调用中分配数组,并确保大小包括编译器/平台所需的对齐的任何填充;

  3. 将数组分布在结构上,将对齐考虑在内。

但是,malloc 已经过优化,因此您的第一个解决方案仍然是首选。

注意:正如用户 Greg Schmit 的解决方案所指出的,一次分配所有数组,如果需要在运行时更改数组大小会造成困难

【讨论】:

  • 感谢 3. 关于对齐。即使在这里不适用,记住它也是好的。
【解决方案3】:

由于这两个数组具有相同的类型,因此基于对 C99 灵活数组成员的创造性使用,有更多的选择。我建议你只对第二个数组使用指针,

struct foo {
    uint16_t *array2;
    uint32_t  field;
    uint16_t  array1[];
};

同时为两者分配内存:

struct foo *foo_new(const size_t length1, const size_t length2)
{
    struct foo *result;

    result = malloc( sizeof (struct foo)
                   + length1 * sizeof (uint16_t)
                   + length2 * sizeof (uint16_t) );
    if (!result)
        return NULL;

    result->array2 = result->array1 + length1;

    return result;
}

请注意,对于struct foo *bar,访问两个数组中的元素i 分别使用相同的符号bar-&gt;array1[i]bar-&gt;array2[i]


在科学计算的背景下,我会完全考虑其他选项,具体取决于访问模式。例如,如果以锁步(任何方向)访问这两个数组,我会使用

typedef  uint16_t  pair16[2];

struct bar {
    uint32_t  field;
    pair16    array[];
};

如果数组很大,那么将它们复制到临时缓冲区(上面的 pair16 数组,如果以锁步方式访问)可能会有所帮助,但最多有几千个条目,它可能不会产生显着影响速度提升。

在访问模式相互依赖的情况下,但您仍然对每个条目进行足够的计算,提前计算下一个条目的地址可能很有用,并使用内置的__builtin_prefetch() GCC 来告诉在对当前条目进行计算之前,您很快就会需要它的 CPU。它可能会减少数据访问延迟(尽管访问预测器在当前处理器上已经相当不错了)。

使用 GCC(以及在较小程度上使用其他常见编译器,如 Intel Compiler Collection、Portland Group 和 Pathscale C 编译器),我注意到操作指针(而不是数组指针和数组索引)的代码编译得更好x86 和 x86-64 上的机器码。 (原因其实很简单:使用数组指针和数组索引,你至少需要两个独立的寄存器,而 x86 相对较少。即使 x86-64 也没有那么多。特别是 GCC 不是很在优化寄存器使用方面很强大——现在比第 3 版时代要好得多——所以这在某些情况下似乎很有帮助)。例如,如果您要按顺序访问struct foo 中的第一个数组,那么

void do_something(struct foo *ref)
{
    uint16_t       *array1 = ref->array1;
    uint16_t *const limit1 = ref->array1 + (number of elements in array1);

    for (; array1 < limit1; array1++) {

        /* ... */

    }
}

【讨论】:

  • 聪明地提到__builtin_prefetch(),我没有考虑(在你有内存空间后优化实际计算部分)。
  • @GregSchmit:不过,我的结果好坏参半。 (我的意思是,实现一个算法并设法以最佳方式将它们撒上并不容易;这有点试探性,因为它在很大程度上取决于编译器生成的代码。)我从不担心@987654334 @等。间接费用;在任何实际计算任务中,缓存效果和访问模式都要大得多。即使优化也说计算 3D 中点之间的平方距离是无用的,除非您将它们的数据安排得最佳:否则内存访问延迟会非常糟糕。
【解决方案4】:

方法 B 是可能的,(你为什么不试试呢?)它更好,不是因为内存局部性,而是因为 malloc() 成本,所以你调用它的次数越少越好你是。 (假设“更好”意味着“更快”,诚然,情况不一定如此。)

内存局部性仅略有改善,因为所有内存块很可能在内存中是连续的(一个接一个),因此如果您使用方法 A,您的数组将仅由块头分隔,块头不是很大. (每个大约 32 个字节,可能会大一些,但不会大很多。)你的块不连续的唯一情况是如果你以前做过malloc()free(),所以你的记忆会支离破碎。

【讨论】:

    猜你喜欢
    • 2021-05-29
    • 2015-01-05
    • 1970-01-01
    • 1970-01-01
    • 2015-11-09
    • 1970-01-01
    • 1970-01-01
    • 2015-06-27
    • 2013-08-30
    相关资源
    最近更新 更多