接到某服务端团队的报障,他们的A服务调用我们负责的B服务在12点左右出现较多的超时情况,A服务设置的超时时间为3秒,当B服务处理时长超过3秒时,A服务就视为超时。经查看B服务的处理时长统计图如下,在12点左右出现较多的超过3000毫秒的情况。
观察机器的性能图,在11点55分负载比较高。一分钟内的load average达到27.82,已经大于cpu的核数24.
Load average和内存、cpu、io有关,内存和CPU查过正常,io利用率在11:55分达到100.08%。
分析下程序,机器上有五个进程,开发人员为了方便定位问题,打印大量的debug,warm,info日志,让开发人员去掉无用的log信息,并迁移两个进程到其他服务器。问题得到解决。
登录 | 立即注册