【问题标题】:Linux server socket - Bad file descriptorLinux 服务器套接字 - 错误的文件描述符
【发布时间】:2012-07-31 07:17:01
【问题描述】:

我在 Linux 下遇到了服务器套接字问题。由于某种我不知道的原因,服务器套接字消失了,我在等待传入连接的选择调用中收到Bad file descriptor 错误。当我在不同的线程中关闭不相关的套接字连接时,总是会出现此问题。这发生在具有 2.6.36 内核的嵌入式 Linux 上。

有人知道为什么会这样吗?服务器套接字可以简单地消失导致Bad file descriptor 是否正常?

编辑: 另一个套接字代码实现了一个 VNC 服务器并在一个完全不同的线程中运行。其他代码的唯一特别之处是使用了setjmp/longjmp,但这应该不是问题。

创建服务器套接字的代码如下:

int server_socket = socket(PF_INET, SOCK_STREAM, IPPROTO_TCP);

struct sockaddr_in saddr;
memset(&saddr, 0, sizeof(saddr));
saddr.sin_family = AF_INET;
saddr.sin_addr.s_addr = htonl(INADDR_ANY);
saddr.sin_port = htons(1234);

const int optionval = 1;
setsockopt(server_socket, SOL_SOCKET, SO_REUSEADDR, &optionval, sizeof(optionval));

if (bind(server_socket, (struct sockaddr *) &saddr, sizeof(saddr)) < 0) {
    perror("bind");
    return 0;
}

if (listen(server_socket, 1) < 0) {
    perror("listen");
    return 0;
}

我使用以下代码等待传入连接:

static int WaitForConnection(int server_socket, struct timeval *timeout)
{
    fd_set read_fds;

    FD_ZERO(&read_fds);
    int max_sd = server_socket;
    FD_SET(server_socket, &read_fds);

    // This select will result in 'EBADFD' in the error case.
    // Even though the server socket was not closed with 'close'.
    int res = select(max_sd + 1, &read_fds, NULL, NULL, timeout);
    if (res > 0) {
        struct sockaddr_in caddr;
        socklen_t clen = sizeof(caddr);
        return accept(server_socket, (struct sockaddr *) &caddr, &clen);
    }

    return -1;
}

编辑: 当问题发生时,我目前只是重新启动服务器,但我不明白为什么服务器套接字 id 会突然变成无效的文件描述符:

int error = 0;
socklen_t len = sizeof (error);
int retval = getsockopt (server_socket, SOL_SOCKET, SO_ERROR, &error, &len );
if (retval < 0) {
    close(server_socket);
    goto server_start;
}

【问题讨论】:

  • 你贴的代码没有问题,错误肯定在别处。例如,您在关闭它之后使用套接字吗?
  • 线程具体用在哪里?
  • 以上代码在一个线程中运行。另一个代码在另一个也运行线程的模块中。关闭那里的连接会杀死这里的服务器。我没想到如果我不关闭它,服务器套接字会变得无效。
  • 我敢打赌,您的代码中的某些错误导致您使用close 与您稍后select 相同的套接字。
  • @trenki 它不能。某处有一个错误导致您关闭侦听套接字具有的相同文件描述符值,或者有一个错误覆盖了保存侦听套接字描述符的变量。您可以在 strace 下运行程序,例如strace -f -e accept,socket,close,shutdown ./yourserver 看看你是否曾经使用与监听套接字相同的文件描述符值调用 close(),或者你是否突然开始将不同的文件描述符传递给 accept()。

标签: c linux sockets


【解决方案1】:

套接字(文件描述符)通常会遇到与C 中的原始指针相同的管理问题。每当您关闭一个套接字时,不要忘记将-1 分配给保持描述符值的变量:

close(socket);
socket = -1;

就像你对C指针所做的那样

free(buffer);
buffer = NULL;

如果您忘记这样做,您可以稍后关闭套接字两次,就像 free() 内存是指针时一样。

另一个问题可能与人们通常忘记的事实有关:UNIX 环境中的文件描述符从 0 开始。如果您在代码中的某处拥有

struct FooData {
    int foo;
    int socket;
    ...
}

// Either
FooData my_data_1 = {0};
// Or
FooData my_data_2;
memset(&my_data_2, 0, sizeof(my_data_2));

在这两种情况下,my_data_1my_data_2 都有一个有效的描述符 (socket) 值。而后来,一些负责释放FooData结构的代码可能会盲目地close()这个描述符,恰好是你服务器的监听socket(0)。

【讨论】:

    【解决方案2】:

    1- 关闭你的套接字:

    close(sockfd);
    

    2- 从选择集中清除您的套接字文件描述符:

    FD_CLR(sockfd,&master); //opposite of FD_SET
    

    【讨论】:

      【解决方案3】:

      您没有区分代码中的两种错误情况,两者都可能失败selectaccept。我的猜测是您只是有一个超时时间,并且选择返回 0

      • else 分支中打印retvalerrno
      • 单独调查accept的返回值
      • 确保在每个系统调用之前将errno 重置为0

      【讨论】:

        【解决方案4】:

        在 Linux 中,一旦你创建了一个连接并且它被关闭了,那么你必须等待一段时间才能建立新的连接。 在 Linux 中,socket 不会释放端口号。只要你关闭套接字。

        你重用了socket,那么坏的文件描述符就要来了。

        【讨论】:

        • 保留的不是IP地址(那会很严重),而是端口号
        • @JensGustedt 是端口号。
        • 这只有在 (a) 您正在创建客户端连接时才适用,这在此处没有发生,(b) 您绑定到特定的出站端口号,而无需这样做,这也不会在这里发生,并且(c)你是启动关闭的结束。 -1 表示完全不相关。
        猜你喜欢
        • 2016-02-15
        • 1970-01-01
        • 1970-01-01
        • 2019-03-24
        • 2019-01-28
        • 1970-01-01
        • 2021-12-20
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多