- 系统优化与进阶之道:大规模复杂场景下的技术创新实录
- InfoQ中文站
- 894字
- 2020-06-26 06:07:38
哪些痛点促进团队转向AIOps
在FreeWheel的发展过程中,业务和技术层面的多个痛点促使运维团队尝试从运维智能化的发展趋势中寻求有效的解决方案。例如:
· FreeWheel一个突出的业务模式是在直播赛事中投放广告。近年来公司服务的直播源大幅增加,从用户过来的广告数量包括流量峰值都难以预测,这对广告服务器以及后端的技术平台和架构的可扩展性和稳定性都提出了很高的要求。同时,直播赛事中广告播放的时间点和时长也是不可预测的,出问题的时间可能短至几秒甚至几毫秒,但对客户的即时影响很大,这时要捕捉到问题并及时解决故障的难度非常高。依靠传统的人工操作及简单自动化难以有效应对上述的运维挑战。
· 在FreeWheel所聚焦的广告领域,另一个极具代表性的痛点来自于欺诈和无效流量(IVT)对数字广告生态系统所构成的重大威胁。所谓“道高一尺,魔高一丈”, IVT的不断演变使得对应的解决方案不可能简单的一蹴而就,而需要具备持续性和智能化的特点,包括持续收集和分析流量来源、行为方式以及进行特征理解,以更好地解决IVT这一威胁。
· 同时,随着FreeWheel业务系统越来越复杂,基础设施各技术层面都出现了不同的挑战。例如监控层面,就出现监控系统多样化,报警条目和数据海量化,但同时报警信息不规范,各类报警邮件的主题和内容都不统一,一个问题经常引发多条报警。在这种情况下,如何在海量的报警消息中甄别有效关键信息,并在报警风暴的压力下快速准确地定位问题解决问题,成为运维团队所面临的巨大挑战。
· 同样在技术层面,如何对现有基础设施的使用进行有效的优化,以支撑业务的稳定运行,也是运维所面临的难题。比如在网络层面,业务量增大带来流量增多、类型复杂,同时云战略的推行也使得云端资源的访问日趋复杂,网络运维团队需要智能化的手段来有效识别流量,并做出灵活的判断和优化处理,比如给优先级高的流量预留足够的带宽,以支撑各关键类型业务的顺利开展。
随着近年来人工智能技术的快速发展,以及各领域运维数据和经验的积累为智能化运维提供数据基础,AIOps正成为运维的下一个发展趋势。FreeWheel希望借助这个趋势解决业务和技术层面所面临的各种挑战,进一步提升运维水平,同时推进运维团队的成长,适应公司业务、技术架构以及整体团队发展的需要。