1.2.3 线上监控

实施线上监控的目的是第一时间发现线上问题并解决问题,保证服务的正常运行。线上监控是一个很宽泛的话题,涉及的技术点非常多。在本小节中,我们侧重于讨论基于测试右移的理念,都有哪些监控工作是需要测试人员重视的。我们总结为以下几个要点:

服务上线后的可用性和性能监控,如遇到问题需要快速回滚代码;

持续的服务关键指标监控,出现报警时能够初步定位问题,与研发人员配合实现止损和修复;

对生产数据进行监控,对异常数据及时介入干预;

进行线上资金实时/离线核对,对资损风险及时介入干预;

进行安全性监控,初步识别安全风险;

对用户反馈的问题及时跟进,通知开发人员尽快解决缺陷,通知产品人员打磨细节、提升体验。

对于上述最后一点,我们需要强调的是,线上监控不仅仅针对应用服务,舆情监控同样重要。对于用户反馈的问题,由客服人员初步判断为技术问题后,测试人员(或技术支持人员)要能够及时跟进处理或分流,以便尽可能快速地给予用户有效的反馈。

另外,上述要点并不是单纯的监控工作内容,我们需要将其内化为质量保障的能力,通过工具和规范,赋能各个技术人员共同参与线上监控的工作。例如,我们可以先将日常的监控项明确清楚,设计好相关的质量数据报表,再通过采集监控数据进行分析和配置告警,来观察版本发布的情况,最终建立一个线上质量看板,以便相关人员及时获悉线上质量情况。