部门有个项目组在做压力测试,发现原来正常的交易,在这一轮压测突然变得很慢(原来是1秒以内,现在达到几十秒甚至上百秒),“会诊”了几个专家最后搞了三天才解决。过程中,我总结了些经验。

  1. 尽可能的问诊这个系统,比如了解到所有可能得到的日志。
  2. 反复观察异常现象,尤其是异常是否有一定的规律性。而这个规律性常常可能就暴露出问题的原因。(比如交易虽然耗时长,但每次基本都是10s)
  3. 再看看正常情况下是什么现象,然后与异常比较。
  4. 调整不正常的情况的参数,一步一步向正常的情况靠,直到某一个点发现变成正常,仔细研究这个点,就是问题的所在。
  5. 找个晚上,干扰少的时候分析问题。
  6. 几个人一起研究问题,总会有收获。大家都会偶然的发现别人习以为常的技巧(比如一个快捷操作,惊叹还有这种操作)。
  7. 问题的主人也很重要,虽然他没有思路,但他熟悉地形,会快速根据的要求给你指路,是解决问题的第一伙伴。
  8. 解决问题的那一刻,真的很爽,很有成就感,也会提高对自己的信心,我喜欢。

-------------------------

本文采用 知识共享署名 4.0 国际许可协议(CC-BY 4.0)进行许可。转载请注明来源:https://imshuai.com/experience-of-system-error-analyzing 欢迎指正或在下方评论。