服务器停止响应怎么办|优先排查网络链路与端口拦截故障

服务器停止响应怎么办|优先排查网络链路与端口拦截故障

深夜值班盯线上业务的时候,突然后台管理页面彻底卡死,所有用户接口全部请求超时,弹窗告警不停跳动,那一刻彻底慌了神,完全不知道服务器停止响应怎么办,后台用户的报错反馈还在源源不断弹出,线上业务直接陷入停滞状态。

最开始的操作完全是瞎忙活,一遍遍刷新浏览器页面,反复退出重登后台系统,固执地认为只是网页缓存或者前端适配出了问题。折腾了七八分钟,页面始终停留在加载空白界面,没有任何数据刷新,业务请求的报错日志还在疯狂新增,一点好转的迹象都没有。

其实大多人第一时间都会踩这个坑。

试着打开远程连接工具重新发起连接,输入固定的服务器IP和端口后,连接进度条死死卡在初始阶段,没有任何数据回执、没有连接提示,这一刻才彻底推翻了前端故障的猜想,问题压根不在页面展示,是服务器和外部的通讯通道彻底断了。之前一直盯着前端界面反复操作,浪费了大量排查时间,后台堆积的未处理请求越来越多,业务延迟的数值一路飙升,差点造成小规模的数据积压,现在想想特别没必要。

折腾好久才搞明白,服务器无响应的第一步绝对不是重启机器,盲目重启只会丢失未同步的临时数据,大概率会加重故障,最稳妥的起步操作就是本地ping服务器公网IP,快速定位故障范围。

本地终端输入指令测试后,所有数据包全部丢失,零返回零响应。切换同局域网的其他电脑再次测试,结果一模一样,但是手边的办公电脑、内网设备都能正常上网,彻底排除了本地宽带、局域网故障的可能性。

登录云服务商的后台监控面板查看数据,CPU占用、内存使用率、磁盘读写速率全部处于正常区间,没有过载、没有进程卡死,系统后台也没有弹出崩溃、报错的日志记录,硬件和程序运行层面完全没有问题。

后来才反应过来,当天下午机房有例行的安全策略更新,运维组悄悄调整了防火墙规则,直接封禁了业务运行对应的专属端口,所有外部访问请求全部被拦截,外部无法和服务器建立通讯,才出现了全程无响应的状态。

当场在云控制台的防火墙配置页面,重新手动放行业务端口,保存规则并刷新链路权限,短短几秒后,远程连接成功建立,后台页面瞬间加载完成,所有接口请求恢复正常,堆积的业务数据开始自动同步处理。忙完这一切,静静看着监控面板上恢复平稳的数据流,关掉聒噪的告警弹窗,安安静静坐在工位上发呆。

了解更多百科知识请访问 百科