了解“损坏的大小与 prev_size”glibc 错误答案

【问题标题】：Understanding "corrupted size vs. prev_size" glibc error了解“损坏的大小与 prev_size”glibc 错误
【发布时间】：2018-09-12 16:39:04
【问题描述】：

我已经实现了一个到 FDK-AAC 的 JNA 桥。源码可见here

对我的代码进行基准测试时，我可以在相同的输入上成功运行数百次，然后偶尔会发生 C 级崩溃，这会杀死整个进程，导致生成核心转储：

查看核心转储，它看起来像这样：

#1  0x00007f3e92e00f5d in __GI_abort () at abort.c:90
#2  0x00007f3e92e4928d in __libc_message (action=action@entry=do_abort, fmt=fmt@entry=0x7f3e92f70528 "*** Error in `%s': %s: 0x%s ***\n") at ../sysdeps/posix/libc_fatal.c:181
#3  0x00007f3e92e5064a in malloc_printerr (action=<optimized out>, str=0x7f3e92f6cdee "corrupted size vs. prev_size", ptr=<optimized out>, ar_ptr=<optimized out>) at malloc.c:5426
#4  0x00007f3e92e5304a in _int_free (av=0x7f3de0000020, p=<optimized out>, have_lock=0) at malloc.c:4337
#5  0x00007f3e92e5744e in __GI___libc_free (mem=<optimized out>) at malloc.c:3145
#6  0x00007f3e113921e9 in FDKfree (ptr=0x7f3de009df60) at libSYS/src/genericStds.cpp:233
#7  0x00007f3e1130d7d3 in Free_AacEncoder (p=0x7f3de0115740) at libAACenc/src/aacenc_lib.cpp:407
#8  0x00007f3e1130fbb3 in aacEncClose (phAacEncoder=0x7f3de0115740) at libAACenc/src/aacenc_lib.cpp:1395

如果我重复运行足够多次的基准测试，这个返回/堆栈跟踪错误是可重现的，尽管我很难理解导致这种错误的原因是什么？分配给指针0x7f3de009df60 的内存也在CPP/C 代码中分配，我可以保证分配的同一个实例正在被释放。当然，基准是单线程的。

阅读后：

security checks && internal functions

我仍然很难理解 - 什么可能是导致我得到上述错误的真实（非利用，而是错误）场景？为什么它很少发生？

目前的怀疑：

运行详细的回溯，我得到以下输入：

#0  __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:51
        set = {__val = {4, 6378670679680, 645636045657660056, 90523359816, 139904561311072, 292199584, 139903730612120, 139903730611784, 139904561311088, 1460617926600, 47573685816, 4119199860131166208, 
            139904593745464, 139904553224483, 139904561311136, 288245657}}
        pid = <optimized out>
        tid = <optimized out>
#1  0x00007f3e92e00f5d in __GI_abort () at abort.c:90
        save_stage = 2
        act = {__sigaction_handler = {sa_handler = 0x7f3de026db10, sa_sigaction = 0x7f3de026db10}, sa_mask = {__val = {139903730540556, 19, 30064771092, 812522497172832284, 139903728706672, 1887866374039011357, 
              139900298780168, 3775732748407067896, 763430436865, 35180077121538, 4119199860131166208, 139904561311552, 139904553065676, 1, 139904561311584, 139904561312192}}, sa_flags = 4096, 
          sa_restorer = 0x14}
        sigs = {__val = {32, 0 <repeats 15 times>}}
#2  0x00007f3e92e4928d in __libc_message (action=action@entry=do_abort, fmt=fmt@entry=0x7f3e92f70528 "*** Error in `%s': %s: 0x%s ***\n") at ../sysdeps/posix/libc_fatal.c:181
        ap = {{gp_offset = 40, fp_offset = 32574, overflow_arg_area = 0x7f3e11adf1d0, reg_save_area = 0x7f3e11adf160}}
        fd = <optimized out>
        list = <optimized out>
        nlist = <optimized out>
        cp = <optimized out>
        written = <optimized out>
#3  0x00007f3e92e5064a in malloc_printerr (action=<optimized out>, str=0x7f3e92f6cdee "corrupted size vs. prev_size", ptr=<optimized out>, ar_ptr=<optimized out>) at malloc.c:5426
        buf = "00007f3de009e9f0"
        cp = <optimized out>
        ar_ptr = <optimized out>
        ptr = <optimized out>
        str = 0x7f3e92f6cdee "corrupted size vs. prev_size"
        action = <optimized out>
#4  0x00007f3e92e5304a in _int_free (av=0x7f3de0000020, p=<optimized out>, have_lock=0) at malloc.c:4337
        size = 2720
        fb = <optimized out>
        nextchunk = 0x7f3de009e9f0
        nextsize = 736
        nextinuse = <optimized out>
        prevsize = <optimized out>
        bck = <optimized out>
        fwd = <optimized out>
        errstr = 0x0
        locked = <optimized out>
#5  0x00007f3e92e5744e in __GI___libc_free (mem=<optimized out>) at malloc.c:3145
        ar_ptr = <optimized out>
        p = <optimized out>
        hook = <optimized out>
#6  0x00007f3e113921e9 in FDKfree (ptr=0x7f3de009df60) at libSYS/src/genericStds.cpp:233
No locals.
#7  0x00007f3e1130d7d3 in Free_AacEncoder (p=0x7f3de0115740) at libAACenc/src/aacenc_lib.cpp:407
No locals.
#8  0x00007f3e1130fbb3 in aacEncClose (phAacEncoder=0x7f3de0115740) at libAACenc/src/aacenc_lib.cpp:1395
        hAacEncoder = 0x7f3de009df60
        err = AACENC_OK

在框架#6中，您可以看到问题中的指针是0x7f3de009df60。
在#4帧中，可以看到大小为2720，这确实是正在释放的结构的预期大小。
但是nextchunk的地址是0x7f3de009e9f0，距离当前释放的指针只有2704字节。
我可以确认，当错误重现时，情况总是如此。
这是否是我面临错误的强烈迹象？

【问题讨论】：

我建议退后几步，并构造一个minimal reproducible example 来查找代码中的内存管理错误。虽然分析地址并非不可能揭示问题，但这种低级的滑稽动作应该是最后的手段，特别是考虑到您的程序可能有 UB（因此，这些地址甚至不能被信任）。无论哪种方式，如果没有这样的 MCVE，我们就不会在这里调试......
使用 valgrind 或 Address Sanitizer。
@LightnessRacesinOrbit 感谢您的详细回复。由于生成 MCVE 将非常困难（同样，此错误并非始终可重现），也许我们应该从一个更简单的问题开始 - 关于对错误“损坏的大小与 prev_size”的实际理解 - 你有什么想法至于什么可能触发程序中的这个特定错误？
是的，生成 MCVE 很难，但没有什么值得做的事情是容易的。这就是你必须做的工作。调试是第一步。我完全意识到，通过积累更一般的指导方针来尝试跳过这一步是很诱人的，但在你解决问题之前，这根本不切实际。祝你好运！

标签： c++ malloc free jna glibc

【解决方案1】：

好的，所以我已经设法克服了这个问题。

首先 - “损坏的大小与 prev_size”的实际原因非常简单 - 由于代码的越界访问，相邻后续块中的内存块控制结构字段被覆盖。如果您为指针 p 分配了 x 字节，但对于同一个指针最终写入超出 x，您可能会收到此错误，表明当前内存分配（块）大小与在下一个块控制结构（由于它被覆盖）。

至于这种内存泄漏的原因 - 在 Java/JNA 层中完成的结构映射意味着与 dll/so 编译时使用的 #pragma 相关的填充/对齐方式不同。这反过来又导致数据写入超出分配的结构边界。禁用该对齐使问题消失。（数千次处决，没有一次崩溃！）。

【讨论】：

这帮助我解决了一个古老的问题！谢谢 :) 我在声明结构时使用了#pragma pack(push, 1)，但在结构的末尾错过了#pragma pack(push)。
@JainamMJ：不会； #pragma pack(pop) 在最后？
关于#pragma：stackoverflow.com/questions/33437269/…
是的，#pragma pack(pop)。抱歉打错了。