链接到两个第 3 方共享库时，c++ 程序崩溃答案

【问题标题】：c++ program crashes when linked to two 3rd party shared libraries链接到两个第 3 方共享库时，c++ 程序崩溃
【发布时间】：2014-09-22 23:19:31
【问题描述】：

我有两个用于 linux 平台的外包共享库（没有源代码，没有文档）。这些库在单独链接到程序（g++ xx.cpp lib1.so 或 g++ xx.cpp lib2.so）时可以正常工作。

但是，当任何 c++ 程序同时链接到这两个共享库时，程序不可避免地会崩溃并出现“double free”错误（g++ xx.cpp lib1.so lib2.so）。

即使 c++ 程序是 empty hello world 程序并且与这些库无关，它仍然会崩溃。

#include <iostream>
using namespace std;
int main(){
     cout<<"haha, I crash again. Catch me if you can"<<endl;
     return 0;
}

生成文件：

g++ helloword.cpp lib1.so lib2.so

我得到了一些线索，这些 lib1.so lib2.so 库可能共享一些公共全局变量，并且它们会破坏一些变量两次。我尝试过 gdb 和 valgrind，但无法从回溯中提取有用信息。

有什么方法可以隔离这两个共享库并让它们以沙盒的方式工作？

编辑（添加核心转储和GDB回溯）：

我刚刚将前面提到的玩具空helloword程序与两个库（平台：centos 7.0 64bits with gcc4.8.2）链接起来：

g++ helloworld.cpp  lib1.so lib2.so -o check

瓦尔格林：

==29953== Invalid free() / delete / delete[] / realloc()
==29953==    at 0x4C29991: operator delete(void*) (in /usr/lib64/valgrind/vgpreload_memcheck-amd64-linux.so)
==29953==    by 0x613E589: __cxa_finalize (in /usr/lib64/libc-2.17.so)
==29953==    by 0x549B725: ??? (in /home/fanbin/InventoryManagment/lib1.so)
==29953==    by 0x5551720: ??? (in /home/fanbin/InventoryManagment/lib1.so)
==29953==    by 0x613E218: __run_exit_handlers (in /usr/lib64/libc-2.17.so)
==29953==    by 0x613E264: exit (in /usr/lib64/libc-2.17.so)
==29953==    by 0x6126AFB: (below main) (in /usr/lib64/libc-2.17.so)
==29953==  Address 0x6afb780 is 0 bytes inside a block of size 624 free'd
==29953==    at 0x4C29991: operator delete(void*) (in /usr/lib64/valgrind/vgpreload_memcheck-amd64-linux.so)
==29953==    by 0x613E589: __cxa_finalize (in /usr/lib64/libc-2.17.so)
==29953==    by 0x4F07AC5: ??? (in /home/fanbin/InventoryManagment/lib2.so)
==29953==    by 0x5039900: ??? (in /home/fanbin/InventoryManagment/lib2.so)
==29953==    by 0x613E218: __run_exit_handlers (in /usr/lib64/libc-2.17.so)
==29953==    by 0x613E264: exit (in /usr/lib64/libc-2.17.so)
==29953==    by 0x6126AFB: (below main) (in /usr/lib64/libc-2.17.so)

gdb 回溯消息：

(gdb) bt
#0  0x00007ffff677d989 in raise () from /lib64/libc.so.6
#1  0x00007ffff677f098 in abort () from /lib64/libc.so.6
#2  0x00007ffff67be197 in __libc_message () from /lib64/libc.so.6
#3  0x00007ffff67c556d in _int_free () from /lib64/libc.so.6
#4  0x00007ffff7414aa2 in __tcf_0 () from ./lib1.so
#5  0x00007ffff678158a in __cxa_finalize () from /lib64/libc.so.6
#6  0x00007ffff739f726 in __do_global_dtors_aux () from ./lib1.so
#7  0x0000000000600dc8 in __init_array_start ()
#8  0x00007fffffffe2c0 in ?? ()
#9  0x00007ffff7455721 in _fini () from ./lib1.so
#10 0x00007fffffffe2c0 in ?? ()
#11 0x00007ffff7debb98 in _dl_fini () from /lib64/ld-linux-x86-64.so.2
Backtrace stopped: previous frame inner to this frame (corrupt stack?)

更新

感谢@RaduCivu 的帮助，我发现了一个非常相似的场景：segmentation fault at __tcf_0 when program exits，看起来两个库之间确实存在全局变量冲突。考虑到我没有这两个外部共享库的源文件，除了使用两个单独的进程，还有其他方法可以解决这个冲突吗？

【问题讨论】：

什么是＃char全部？ span>
在我看来这两个库是用不同版本的 gcc（或任何情况下的不同编译器）编译的，在这种情况下你无能为力，除了与开发人员交谈以使用相同的编译器或 make通过 IPC 通信的独立进程
@ nirmh“＃”只表示共享库的名称。我进行了编辑以使其更具可读性。
只有当它是链接器在编译时找不到的全局变量，因此系统从另一个 .so (extern void* globalVar) 加载它时，你才能使用 gdb 获取堆栈跟踪和将其发布在您的问题中？也许我们可以从那里得到更多的上下文
是的，所以问题就像你说的两个全局变量之间的名称冲突，更多关于这个的链接：stackoverflow.com/questions/6828984/crash-in-tcf-0

标签： c++ linux crash shared-libraries double-free

【解决方案1】：

经过一天的搜索，我已经解决了这个问题，并在此处留言，以防其他人将来遇到此问题。

说明

证明@RaduChivn 和我的猜测是正确的：两个共享库可能共享一个公共全局变量。即使一个空程序同时链接到两个共享库，当它退出时，公共全局变量也会被尝试释放两次，从而导致双重释放损坏。

线索来自gdb backtrace中的这条消息：

#4  0x00007ffff7414aa2 in __tcf_0 () from ./lib1.so

如本帖所述：

What is function __tcf_0? (Seen when using gprof and g++),

tcf_0 是 g++ 生成的一个函数，用于在触发 exit() 时破坏静态对象。此消息提示当一个共享库尝试在另一个共享库之后退出时发生双重释放。

由于这两个库旨在协同工作，因此损坏是不可接受的工程师灾难。这么低质量却又很明显的 bug 怎么能存活五个版本呢？这可能是由于大多数图书馆用户在 Windows 平台上工作（其包工作正常）。然而，这个假设为错误的根源提供了另一个提示：共享库在 windows 上运行良好，而在 linux 上崩溃；那么它一定是一些依赖于操作系统的行为差异导致了这个错误。该线程提供了一些见解：

Global variable has multiple copies on Windows and a single on Linux when compiled in both exec and shared libaray.

简而言之，共享库中的“外部全局变量”在 linux 上获得单个副本，但在 Windows 上获得多个副本。

解决方案

(1) 我们自然会有一种解决方法，即创建两个进程，每个进程分别链接到一个库。

(2) @DavidSchwartz 提供了另一种在程序结束时使用 _exit(0) 的解决方法，而不是常见的“return 0”或“exit(0)”，它可以工作。根据

What is the difference between using _exit() & exit() in a conventional Linux fork-exec?

，必须手动刷新文件并检查 atexit 作业；对于内存方面，由于程序正在退出，操作系统无论如何都会回收所有进程内存，无需担心。

(3)另一种方法是使用dlopen(xx.so, RTLD_LOCAL)，先盲化所有符号，然后手动dlysm你需要的函数符号

（@JonathanWakely 在这里指出 RTLD_LOCAL 有副作用，请参阅评论）。

在这种情况下，库编码器甚至没有在他们的共享库中使用“extern C”，使得名称在 so 文件中变得非常难以阅读；如果其他人喜欢这个，以下线程可能会有所帮助：

Getting undefined symbol error while dynamic loading of shared library

如果您的共享库没有得到很好的支持，就像我的情况一样，解决方案仍然是可能的。我手动把所有需要的函数都整理出来，用nm在.so文件中找到每个对应的符号，一一链接，果然奏效了。

【讨论】：

RTLD_LOCAL 将解决眼前的问题，但请注意，这意味着您将无法跨共享库接口使用 C++ 异常或 RTTI（在您的情况下这可能不是问题）。此外，您似乎暗示不使用 extern "C" 是一件坏事，但除非您想从非 C++ 程序调用库，否则没有理由使用它，即使您确实想从非您只需要在公共 API 中使用 extern "C" 的 C++ 程序。名称修饰并不是为了使名称可读，这就是为什么它被称为“修饰”
@JonathanWakely 我会记下您的 RTLD_LOCAL 和 extern "C" 建议。更新答案以反映这一点。谢谢。

【解决方案2】：

一种可能的解决方案是永远不要致电exit。要终止您的程序，只需致电_exit。如果您需要做任何具体的事情，通常由exit 完成，请在致电_exit 之前自己完成。

【讨论】：

检查并工作。假设使用智能指针并手动完成清理工作，这个看起来不错。更新答案以反映您的建议。谢谢。