【问题标题】:nginx connection limitnginx连接限制
【发布时间】:2016-10-10 01:12:57
【问题描述】:

我们有 2 台 nginx 服务器以 1000reqs/秒的速度完美运行,在 3 台具有 TCP 连接的 php5-fpm 服务器前面。我们认为一台 nginx 服务器就足够了,并将我们所有的流量重定向到它。但是,服务器的服务速度不能超过 750reqs/sec。它具有千兆以太网,并且其上的总流量不超过 100mbits (Debian 6.0)

我们找不到任何原因,在谷歌搜索后发现它可能与 TCP 问题有关。但是我们似乎不太可能对这个连接数和带宽(大约 70 兆位/秒)进行任何更改。后来我们将一半的流量重定向回另一个 nginx,再次达到 1000 请求/秒。

我们一直在查看 nginx 错误和访问日志。是否有任何工具或文件可以帮助我们找到问题的解决方案?

【问题讨论】:

  • 如果您对 1000 多个并行请求进行基准测试,您会收到任何失败的请求吗?
  • ab -n 1000 -c 1000 尝试了几次有时 400 有时 600 次失败有时没有。平均约 300 个失败请求。

标签: nginx php


【解决方案1】:

大多数 linux 发行版都有28232 ephemeral ports available。服务器需要为每个连接提供一个临时端口,以便为新连接释放主要端口(即 http 服务器端口 80)。

因此,如果服务器正在处理 php5-fpm 通过 TCP 生成的内容的 1000 个请求/秒,那么您分配的端口数是 2000 个/秒。情况并非如此,可能 5% 的 PHP 和 95% 的静态(无端口分配)和 IIRC nginxphp-fpm 为后续请求保持端口打开。有很多因素会影响这些数字,但为了争论,假设 1000 端口分配/秒。

从表面上看,这似乎不是问题,但默认情况下,端口不会立即释放并可供新连接使用。这种行为有多种原因,我强烈建议您彻底了解TCP,然后再随意进行此处(或其他任何地方)详述的更改。

主要是一种称为 TIME_WAIT 的连接状态(套接字在关闭后等待处理仍在网络中的数据包,netstat man page)是阻止端口被释放以供重用的原因。在最近的(全部?)Linux 内核上,TIME_WAIT 被硬编码为 60 秒,根据RFC793 的说法,连接可能会在 TIME_WAIT 中停留长达四分钟!

这意味着至少有 1000 个端口将使用至少 60 秒。在现实世界中,您需要考虑传输时间、保持活动请求(多个请求使用相同的连接)和服务端口(在 nginx 和后端服务器之间)。让我们任意将其降低到 750 个端口/秒。

在大约 37 秒内,所有可用端口都将用完 (28232 / 750 = 37)。这是个问题,因为释放一个端口需要 60 秒!

要查看所有正在使用的端口,请运行apache bench 或类似的东西,它可以生成您正在调整的每秒请求数。然后运行:

root:~# netstat -n -t -o | grep timewait

你会得到类似的输出(但很多很多行):

tcp        0      0 127.0.0.1:40649         127.1.0.2:80            TIME_WAIT   timewait (57.58/0/0)
tcp        0      0 127.1.0.1:9000          127.0.0.1:50153         TIME_WAIT   timewait (57.37/0/0)
tcp        0      0 127.0.0.1:40666         127.1.0.2:80            TIME_WAIT   timewait (57.69/0/0)
tcp        0      0 127.0.0.1:40650         127.1.0.2:80            TIME_WAIT   timewait (57.58/0/0)
tcp        0      0 127.0.0.1:40662         127.1.0.2:80            TIME_WAIT   timewait (57.69/0/0)
tcp        0      0 127.0.0.1:40663         127.1.0.2:80            TIME_WAIT   timewait (57.69/0/0)
tcp        0      0 127.0.0.1:40661         127.1.0.2:80            TIME_WAIT   timewait (57.61/0/0)

对于分配的端口总数:

root:~# netstat -n -t -o | wc -l

如果您收到失败的请求,则该数字将等于/接近 28232。

如何解决问题?

  1. 将临时端口的数量从 28232 增加到 63976。

    sysctl -w net.ipv4.ip_local_port_range="1024 65000"
    
  2. 允许 linux 在超时到期前重用 TIME_WAIT 端口。

    sysctl -w net.ipv4.tcp_tw_reuse="1"
    
  3. 其他 IP 地址。

【讨论】:

  • 我们进行了一些更改,如下所示:dak1n1.com/blog/12-nginx-performance-tuning 现在 netstat -n -t -o | wc -l 输出 42881
  • ab 时失败的请求现在为 0。我们更改了 php5-fpm 配置(队列长度等)并修复了它。但是,我们仍然怀疑在高峰期会达到极限。
  • 添加另一个 IP 地址是最安全的解决方案。如果您在高峰期注意到 netstat 达到了您的端口限制,sysctl -w net.ipv4.tcp_tw_reuse="1" 可以成为救命稻草。
  • 好的,我们将该值设置为“1”。但是我们可能没有很好地测试它,因为我们添加了另一个带有轮询 dns 的 nginx。顺便说一下,所有的 nginx 流量都是 php。静态文件在别处。
猜你喜欢
  • 1970-01-01
  • 2016-03-08
  • 2020-04-07
  • 2019-01-12
  • 1970-01-01
  • 2016-10-19
  • 2011-06-25
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多