记一次生产环境救火-20210716

今天起了个早,早早来到公司,本来吃完早餐,泡好咖啡,在工位上气定神闲的刷刷昨天的财经信息,准备开启今天的工作。想起昨天微信群里有人反映系统,系统加载较慢,于是打开阿里云后台,准备看看服务器负载情况。负载有一点点偏高,于是准备用万能解决办法,重启服务器(电脑90%的问题能通过重启解决,重装系统能解决剩下的9%,再剩下的1%就比较棘手了)。

正当我准备重启时,突然,微信群里的报警信息又来了,接着各个微信群的报警信息,相继弹出来。整改晋西北都乱成了一锅粥。

我心想慌什么,象没见过世面似的。于是我祭出了重启大法,待重启完毕,刷新,我期待的页面流畅加载没有出现。再刷,依旧页面加载中,看负载情况,跑到100%。

没办法,2核的服务器上放了17个站点,我之前就提议了升级一下服务器配置,刚好升级一下吧。于是祭出第二招,升服务器配置,公司申请流程有点慢,得特事特办,直接给领导微信申请。

服务器升成了8核16G内存,负载是降下来了。页面也流畅加载了。加载出来的却是404页面(系统只要报错就跳404)。各个微信群还在催,说真的心理还是有点慌的,因为没有动任何配置的情况下,出现404,这种情况暂时就没法定位问题原因。

记一次生产环境救火-20210716

那问题出现了,就得排查,从入口文件开始打断点追踪,追到一个session初始化时,开始出现404,问题出在session?继续进入session初始化中看看。最后发现是session存在数据库里(这是个老项目,没去注意session的细节)。

于是把session表数据一清,ok总算是能正常运行了,虚惊一场。

这也充分说明,遇事不能慌,无论哪个领导怎么着急也不要去狡辩。事实就是摆在这:1.系统挂了;2.不知道什么原因挂的。3.没有支援。4.这个问题需要用最快的速度解决。这样一分析,除了去找问题并解决,其他做法都是不合理的。

在此记录一下,方便作为以后解决各种问题的方法。

原创文章,作者:Zeyu,如若转载,请注明出处:https://jinzhijun.cn/develop/550

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注