【问题标题】:Problem with mmap/munmap - getting a bus error after the 783rd iteration?mmap/munmap 的问题 - 在第 783 次迭代后出现总线错误?
【发布时间】:2009-11-03 15:07:51
【问题描述】:

好的,设置如下:我在 HPC 工作,我们正在为扩展到数万个节点的需求做准备。为了解决这个问题,我实现了一个本地进程,在每个节点上缓存信息以减少网络流量。然后它通过共享内存公开这些信息。基本逻辑是存在一个众所周知的共享内存块,其中包含当前缓存表的名称。当更新发生时,缓存工具会创建一个新的共享内存表,填充它,然后用新表的名称更新众所周知的块。

该代码似乎可以正常工作(例如,valgrind 表示没有内存泄漏),但是当我故意对其进行压力测试时,第一个 783 更新工作得非常好 - 但是在第 784 次,当我尝试写入映射的内存。

如果问题是打开的文件太多(因为我正在泄漏文件描述符),我预计 shm_open() 会失败。如果问题是我泄漏了映射内存,我希望 mmap() 失败或 valgrind 报告泄漏。

这是代码片段。谁能给个建议?

int
initialize_paths(writer_t *w, unsigned max_paths)
{
int err = 0;
reader_t *r = &(w->unpublished);

close_table(r,PATH_TABLE);

w->max_paths = max_paths;

err = open_table(r, PATH_TABLE, O_RDWR | O_CREAT, max_paths, 0);

return err;
}

static void
close_table(reader_t *r, int table)
{
    if (r->path_table && r->path_table != MAP_FAILED) {
       munmap(r->path_table,r->path_table->size);
       r->path_table=NULL;
    }
    if (r->path_fd>0) { close(r->path_fd); r->path_fd=0; }
}


static int
open_table(op_ppath_reader_t *r, int table, int rw, unsigned c, unsigned c2)
{
// Code omitted for clarity
if (rw & O_CREAT) {
    prot = PROT_READ | PROT_WRITE;
} else {
    // Note that this overrides the sizes set above.
    // We will get the real sizes from the header.
    prot = PROT_READ;
    size1 = sizeof(op_ppath_header_t);
    size2 = 0;
}

fd = shm_open(name, rw, 0644);
if (fd < 0) {
    _DBG_ERROR("Failed to open %s\n",name);
    goto error;
}

if (rw & O_CREAT) {
    /* Create the file at the specified size. */
    if (ftruncate(fd, size1 + size2)) {
        _DBG_ERROR("Unable to size %s\n",name);
        goto error;
    }
}

h = (op_ppath_header_t*)mmap(0, size1 + size2, prot, MAP_SHARED, fd, 0);
if (h == MAP_FAILED) {
    _DBG_ERROR("Unable to map %s\n",name);
    goto error;
}

if (rw & O_CREAT) {
    /*
     * clear the table & set the maximum lengths.
     */
    memset((char*)h,0,size1+size2);  -- SIGBUS OCCURS HERE
    h->s1 = size1;
    h->s2 = size2;
} else {
// more code omitted for clarity.
}

更新:

以下是一些失败的调试输出示例:

NOTICE: Pass 783: Inserting records.
NOTICE: Creating the path table.
TRC: initialize_paths[
TRC: close_table[
TRC: close_table]
TRC: open_table[
DBG: h=0x0x2a956b2000, size1=2621536, size2=0

这是上一次迭代的相同输出:

NOTICE: Pass 782: Inserting records.
NOTICE: Creating the path table.
TRC: initialize_paths[
TRC: close_table[
TRC: close_table]
TRC: open_ppath_table[
DBG: h=0x0x2a956b2000, size1=2621536, size2=0
TRC: open_ppath_table]
TRC: op_ppath_initialize_paths]

注意指针地址有效,大小也有效。

GDB 以这种方式报告崩溃:

Program received signal SIGBUS, Bus error.
[Switching to Thread 182895447776 (LWP 5328)]
0x00000034a9371d20 in memset () from /lib64/tls/libc.so.6
(gdb) where
#0  0x00000034a9371d20 in memset () from /lib64/tls/libc.so.6
#1  0x0000002a955949d0 in open_table (r=0x7fbffff188, table=1, rw=66,
c=32768, c2=0) at ofedplus_path_private.c:294
#2  0x0000002a95595280 in initialize_paths (w=0x7fbffff130,
    max_paths=32768) at path_private.c:567
#3  0x0000000000402050 in server (fname=0x7fbffff270 "gidtable", n=10000)
    at opp_cache_test.c:202
#4  0x0000000000403086 in main (argc=6, argv=0x7fbffff568)
    at opp_cache_test.c:542

(gdb)

当 h->size1 在下一行设置时,删除 memset 仍然会导致 SIGBUS - 并且 size1 是映射区域的前 4 个字节。

【问题讨论】:

  • O_CREAT 情况下 size1 和 size2 的值是多少?
  • 您能否使用 gdb 对这段代码进行压力测试(例如,在批处理模式下),在 memset 调用之前放置一个断点以打印 h 的值,然后继续?如果它在 gdb 中运行良好,则可能是内存泄漏/缓冲区外写入​​。
  • size1 在这种情况下约为 256k。对于压力测试,它的大小始终相同。

标签: c linux memory-management


【解决方案1】:

SIGBUS 可能是由对您的 SHM 对象的多次引用引起的。
查看上面的代码,您使用 shm_open()mmap()munmap() 但是
你缺少 shm_unlink()

正如 *shm_open / shm_close 的手册页所述,这些对象是引用计数的。

shm_unlink的操作类似于unlink(2):移除一个共享内存对象 名称,并且,一旦所有进程都取消了对象的映射,就会取消分配并销毁 相关内存区域的内容。
成功 shm_unlink 后,尝试 shm_open 具有相同的对象 name 将失败(除非指定了 O_CREAT,在这种情况下会创建一个新的、不同的对象)。

也许这些信息将有助于解决您的问题。

【讨论】:

  • 我已经知道 shm_unlink() 并且我在不同的上下文中使用它,但是你的建议让我重新检查代码并仔细检查 - 我发现,确实,旧数据是永远不会断开链接。我猜我实际上用尽了 Linux 一次可以拥有的共享内存区域的数量。
猜你喜欢
  • 1970-01-01
  • 2014-05-20
  • 2017-10-30
  • 1970-01-01
  • 1970-01-01
  • 2017-10-11
  • 2016-04-13
  • 2014-11-23
  • 1970-01-01
相关资源
最近更新 更多