是什么让 Linux 64 位上的 backtrace() 崩溃（SIGSEGV）答案

【问题标题】：what makes backtrace() crash(SIGSEGV ) on Linux 64 bit是什么让 Linux 64 位上的 backtrace() 崩溃（SIGSEGV）
【发布时间】：2011-09-16 07:04:11
【问题描述】：

我正在 linux 上开发一个应用程序，我想在其中以特定频率回溯所有正在运行的线程。所以我的用户定义的信号处理程序 SIGUSR1（对于所有线程）调用 backtrace()。

我在源自 backtrace() 调用的信号处理程序中遇到崩溃（SIGSEGV）。我已将正确的参数传递给大多数网站上指定的函数。 http://linux.die.net/man/3/backtrace.

在这种情况下，什么会导致 backtrace() 崩溃？

添加更多细节：

是什么让我得出结论，崩溃在回溯内部是下面的第 14 帧。 onMySignal 是信号处理程序 SIGUSR1，它调用回溯。

onMySignal 的示例代码是（复制自 backtrace 的 linux 文档）

pthread_mutex_lock( &sig_mutex );

int j, nptrs;
    #define SIZE 100
        void *buffer[100] = {NULL};//or void *buffer[100];
        char **strings;
       nptrs = backtrace(buffer, SIZE);
           pthread_mutex_unlock( &sig_mutex );

(gdb) where
#0  0x00000037bac0e9dd in raise () from 
#1  0x00002aaabda936b2 in skgesigOSCrash () from 
#2  0x00002aaabdd31705 in kpeDbgSignalHandler () 
#3  0x00002aaabda938c2 in skgesig_sigactionHandler () 
#4  <signal handler called>
#5  0x00000037ba030265 in raise () from 
#6  0x00000037ba031d10 in abort () from 
#7  0x00002b6cef82efd7 in os::abort(bool) () from 
#8  0x00002b6cef98205d in VMError::report_and_die() ()
#9  0x00002b6cef835655 in JVM_handle_linux_signal () 
#10 0x00002b6cef831bae in signalHandler(int, siginfo*, void*) ()
#11 <signal handler called>
#12 0x00000037be407638 in ?? () 
#13 0x00000037be4088bb in _Unwind_Backtrace () 
#14 0x00000037ba0e5fa8 in backtrace () 
#15 0x00002aaaaae3875f in onMySignal (signum=10,info=0x4088ec80, context=0x4088eb50)   
#16 <signal handler called>
#17 0x00002aaab4aa8acb in mxSession::setPartition(int)
#18 0x0000000000000001 in ?? ()
#19 0x0000000000000000 in ?? ()
(gdb)

希望这会让问题更清楚..

@janneb 我已经在 Mutex 锁中编写了信号处理程序实现，以实现更好的同步。

@janneb 我没有在文档中找到指定 API backtrace_symbols/backtrace 是否为 async_signal_safe。以及它们是否应该在信号处理程序中使用。

我仍然从我的信号处理程序中删除了 backtrace_symbols 并且没有在任何地方使用它。但是我在 backtrace() 中崩溃的实际问题仍然存在。也不知道为什么会崩溃..

23/06/11 编辑：更多细节：

(gdb) where
#0  0x00000037bac0e9dd in raise () from 
#1  0x00002aaab98a36b2 in skgesigOSCrash () from 
#2  0x00002aaab9b41705 in kpeDbgSignalHandler () from 
#3  0x00002aaab98a38c2 in skgesig_sigactionHandler () from 
#4  <signal handler called>
#5  0x00000037ba030265 in raise () from 
#6  0x00000037ba031d10 in abort () from 
#7  0x00002ac003803fd7 in os::abort(bool) () from
#8  0x00002ac00395705d in VMError::report_and_die() () from 
#9  0x00002ac00380a655 in JVM_handle_linux_signal () from 
#10 0x00002ac003806bae in signalHandler(int, siginfo*, void*) () from 
#11 <signal handler called>
#12 0x00000037be407638 in ?? () from libgcc_s.so.1
#13 0x00000037be4088bb in _Unwind_Backtrace () from libgcc_s.so.1
#14 0x00000037ba0e5fa8 in backtrace () from libc.so.6
#15 0x00002aaaaae3875f in onMyBacktrace (signum=10, info=0x415d0eb0, context=0x415d0d80)
#16 <signal handler called>
#17 0x00000037ba071fa8 in _int_free () from libc.so.6
#18 0x00000000000007e0 in ?? ()
#19 0x000000005aab01a0 in ?? ()
#20 0x000000000000006f in ?? ()
#21 0x00000037ba075292 in realloc () from libc.so.6
#22 0x00002aaab6248c4e in Memory::reallocMemory(void*, unsigned long, char const*, int) ()

在执行 realloc 时发生崩溃，其中一个地址类似于 0x00000000000007e0（看起来无效）..

【问题讨论】：

你能添加一些代码吗？你确定backtrace 是它崩溃的确切位置吗？但是，使用backtrace，您可以轻松提供导致此问题的无效指针。
顺便说一句，您的代码不是异步信号安全的，因为您在信号处理程序中调用 backtrace_symbols()。
在信号处理程序中添加互斥体并锁定/解锁它不是解决方案。解决方案是仅在信号处理程序中使用异步信号安全调用。
您是否删除了互斥调用？另外，您是否尝试过使用备用信号堆栈？

标签： linux backtrace

【解决方案1】：

documentation for signal handling 定义要从信号处理程序调用的安全函数列表，您不得使用任何其他函数，包括backtrace。（在该文档中搜索async-signal-safe）

您可以做的是write 到您之前设置的管道，并有一个线程等待该管道，然后执行回溯。

编辑：

好的，所以backtrace函数返回当前线程的堆栈，所以不能从另一个线程使用，所以我使用单独的线程来做回溯的想法是行不通的。

因此：您可以从信号处理程序中尝试backtrace_symbols_fd。

作为替代方案，您可以使用gdb 来获取回溯，而不必在程序中添加代码 - 而gdb 可以轻松处理多个线程。

运行 gdb 并取回跟踪信息的 Shell 脚本：

#!/bin/bash
PID="$1"
[ -d "/proc/$PID" ] || PID=$(pgrep $1)
[ -d "/proc/$PID" ] || { echo "Can't find process: $PID" >&2 ; exit 1 ; }

[ -d "$TMPDIR" ] || TMPDIR=/tmp

BATCH=$(mktemp $TMPDIR/pstack.gdb.XXXXXXXXXXXXX)
echo "thread apply all bt" >"$BATCH"
echo "quit" >>"$BATCH"
gdb "/proc/$PID/exe" "$PID" -batch -x "$BATCH" </dev/null
rm "$BATCH"

【讨论】：

你的意思是哪个线程应该等待管道？在回溯中，应该给出引发信号并调用信号处理程序的原始线程的调用堆栈？您的意思是我们应该从信号处理程序启动一个线程并且它应该进行回溯吗？应该从谁/从哪里开始？应该将哪些数据写入管道？场景流程很不清楚。请您详细说明一下。
我只需要可以从回溯（第一个参数缓冲区）获得的堆栈帧的 IP 地址，并且由于我不想读取符号（函数）名称，因此也不需要使用 backtrace_symbols_fd/backtrace_symbols。我已经从我的实现中删除了 backtrace_symbols 调用。由于我的崩溃起源是 backtrace()，因此我需要为此提供解决方案。再次，因为 backtrace() 读取的 IP 缓冲区用于在我的代码中进行进一步处理，单独 shell 中的 gdb/pstack 对我来说不是正确的选项。
我也尝试了自己的回溯导航算法，但正如人们所说的堆栈结束条件很难识别它有时会失败。有点相关的线程link link

【解决方案2】：

正如 Douglas Leeder 所说，backtrace 不在信号安全调用列表中，尽管在这种情况下我怀疑问题是由backtrace_symbols 完成的malloc，尝试使用backtrace_symbols_fd，它确实不打电话给malloc，只打电话给write。（并丢弃互斥调用，信号处理程序不应休眠）

编辑

从我从backtrace 的源代码中可以看出，它本身应该是信号安全的，尽管您可能会超出堆栈。

您可能想查看 glibc 对 libsegfault 的实现，以了解它如何处理这种情况

【讨论】：

您知道在回溯中可以安全使用的任何功能吗？事实上，我的实现在大多数情况下都有效。并且在需要服务器登录的极少数情况下失败。我还看到有人建议说在 SIGSEGV 信号处理程序中使用 backtrace() 来识别崩溃位置。虽然我的要求不是在崩溃时进行回溯，而是在执行时和定期进行。
@sandeep：您的服务器登录代码是否可能广泛使用堆栈？如果是这样，请考虑通过sigaltstack 使用备用信号堆栈，它可能会解决问题
@Leedehai: backtrace() 不是 POSIX 指定的，因此它不在 POSIX 异步信号安全函数列表中也就不足为奇了。不在该列表中并不意味着函数不是异步信号安全的，而只是它不是必需的。无论如何，在 libsegfault 中使用应该是安全的。
@Leedehai：通过backtrace manpage，一个可能的问题是在加载libgcc 之前调用backtrace() 可能会调用malloc()，这在信号处理程序中可能是致命的。否则，AFAICT，函数本身是可重入的并且不使用全局状态，所以不应该引起问题。（另外，AFAICT，它被记录为 AS-Unsafe 的原因是上述加载了 libgcc）
@Hasturkun 谢谢！该手册页似乎建议我在程序启动时（在信号处理程序之外）调用backtrace() 以“预热”数据结构。追问：哈哈，Google 的Chromium 就是这样做的。