蓝军炼成记
2017年2月9日,一场别样的事故演练正在紧张有序地进行。
蓝军扮演一线角色,14:00上报问题:“某国V局点,突然出现大量小区中断,客户投诉,请处理”。
14:02 ,红军快速集结到作战室,迅速完成各角色的分工。
14:15,日志回传完毕。
14:20,发现日志解析工具版本无最新适配层,解析日志出现阻塞。
14:30,第一次恢复的脚本下发失败,红军紧急启动二次恢复脚本制作。
14:50,问题上升,求助到后台专家老唐。专家到场后,抽丝剥茧,迅速找到问题根因。
15:10,问题恢复。
恢复时长70分钟,蓝军获胜。老唐因发挥关键作用,获得 “事故恢复之星”殊荣。
而与此同时,我坐在作战室“奋笔疾书”,默不作声,仔细地观察整个作战过程,小心地记录下了所有的作战细节和思路,和红军一起就地复盘,完成能力评分以及能力雷达。
过去近两年,我们在无线控制器团队内进行了30多次类似演练。蓝军在实验室构造网络故障,模拟现网事故问题场景,上报给红军紧急处理,以此加强红军紧急问题恢复的熟练度,达到快速恢复事故,保持战斗力的目的。
我是这支蓝军的负责人,可说实话,我们的出现是被现实“逼”出来的。
蓝军诞生,我成了“满广志”
2015年8月26日,E局事故在风平浪静时爆发,犹如晴天霹雳,给部门造成了极大的质量创伤,所有研发人员笼罩在事故的阴影中:接下来,怎么办?
PDU部长在那年质量大会上说:“质量事故并不可怕,我们要如凤凰涅槃一般,敢于树立‘1000天零事故’的目标,开启全新的征程。”在当时,那绝对是个遥不可及的梦想。
接着,进入 2016年,控制器网上紧急问题发生的不确定性以及复杂性,不断挑拨着整个部门敏感的神经。对事故恢复团队来说,每次的紧急问题恢复,犹如火山口上走钢丝,“以战代练”远远不能达到严峻的网上压力对事故恢复能力的要求。比如Y局硬件故障导致业务受损的问题,投入所有研发骨干,争分夺秒将问题恢复,险些酿成事故。而这种紧急情况,早已成为常态。
如何提升事故恢复能力?必须在实战中才能提升。部门决定成立无线网络软件平台蓝军旅,作为能力提升的发动机,站在客户视角,提前发掘现在网上风险和网上隐患,让未知风险变已知风险,让已知问题更快恢复。很快,FSD(全栈工程师)网站上出现了一个特别的任务“寻找控制器软件平台的满广志”。
我怀着忐忑的心情,“抢”下这个任务后,PDU部长语重心长地对我说:“蓝军的运作,你一定要站在超过所有人认知的高度去做,场景要无限逼近现网,且蓝军要100%获胜,让我们的事故恢复能力能够真正跨上一个台阶。”就这样,我成了部门的“满广志”,肩负起了这沉甸甸的使命,同时100%蓝军获胜,也是一个巨大的压力。
一场 “慢悠悠”的演练
第一场对抗,我热情满满,在实验室耗了近两天的时间,借鉴已知网上问题,经过反复调试,设置了一个控制器在升级后GB接口负荷分担路由的场景。而且,为了确保万无一失,我还小心地尝试了预期的恢复方案,确认可以恢复后,和红军约好了演练的时间,发起演练。
“某国Y局点,一线反馈,控制器升级后,PS业务全部中断,客户投诉”。蓝军怀着紧张的心上报问题。
“好的,请回传下数据,我们来分析下”,红军接口人回答。
可是5分钟过去了,红军却没了动静。怎么回事?我们如热锅上的蚂蚁一样焦急。
无奈之下,我只好跑过去问事故组组长:“为何没人响应?”他回答:“我们正在协调投入人员,现在大家手头都有事情在处理。 ”过了好一会儿,攻关室才陆陆续续进去了3个人,开始按部就班,“慢悠悠”地和蓝军对话,询问具体信息。
经过红军的分析、讨论,1小时过去了,业务仍未恢复,演练结束,蓝军获胜。红蓝军集中到作战室,一起做了短暂的AAR,记了几个遗留问题后,就这样散了,仿佛这样演练没有发生一般。
眼瞅着花了两天时间准备的演练,就这么仓促而马虎地结束了,我满心的失落感无处宣泄。这样的演练,即使蓝军获胜又有什么意义呢?后面的几场演练也几乎是这种状态,总感觉蓝军运作味同嚼蜡,我甚至有点厌烦被卷入了这样琐碎、繁杂却毫无意义的事务中。
把每一场演练都当成实战
2017年初,作为传统业务,控制器人员急剧收缩,整个团队隐隐失去了前进方向。此时,部门提出探路者文化:已知领域:从0->1,点亮一片地图。未知领域:从1->N,达到前所未有的高度。我开始思考,在蓝军运作的已知领域可否做一个探路者,将其做到新的高度?
说白了,蓝军的目的是为了促成一支优秀的作战部队,那么世界上最优秀的作战部队是什么气质?美军。最顽强的作战部队是哪只队伍?我想到了朝鲜战场的上甘岭战役中的人民志愿军。那段时间,我看了金一南教授的《将军是怎么炼成的》《队伍的灵魂与血性》及相关题材电影,同时,了解了美军的故事,有很大触动——优秀的作战部队“不能例行公务,要有流程和荣誉,要不断反思”。
经过系统的思考和规划后,我借鉴了GTAC相关的作战规范和流程及已有的红蓝军运作规范,设立了四个目标(作战流程、人员能力、工具催熟、工具发布)、两个中心(以作战流程为中心,以人员能力螺旋式上升为中心)。
为了配合目标,我的角色由一线人员变为红军作战室里的观察员,并定义了红军不同角色的职责和考核标准,记录“分钟级”的作战细节来支撑后续改进,同时,根据目标优化了AAR的模板。这些很快和红军达成一致,被称之为“重新定义事故演练”。
2017年2月9日,正如开头的场景所描述的那样,红蓝军对抗以一种全新的方式亮相,所有作战人员都把演练当成实战对待,整个过程紧张有序,一气呵成。
复盘后,红军对蓝军设置的场景进行了评分,平均9.5分。而且,我将事故恢复的两个关键角色——恢复指挥官和技术指挥官的能力模型做成雷达图展示出来,具体指明了作战过程中的不足,并根据分钟级的记录表,给出这种不足对应的实际举证。
红蓝军“逼迫”对方成长
这样的演练进行了5次后,我发现,红军因一些低级问题重犯,导致作战时间增加的现象多次发生。我提议设立红军作战军规。与此同时,蓝军也被红军“挑刺”: 设置的场景不贴近现网,故障触发后,30分钟以内就上报不符合实际的情况,建议蓝军改进。在每个月的月报中,会例行通报“触犯”军规的人员;每一场演习中,我们都会审视军规的合理性,一切为了胜利。这样的红蓝互评,督促了红蓝军共同成长与进步。
甚至,蓝军为逼近现网,在红军不知情的情况下,多次突然发起演练。如今年5月份的“被窝场景 ”,早上6:00上报问题;6月份在维护人员快下班的时候突然发起演习;还策划了“节假日场景 ”。每一个场景的设置,都为了将红军置身于最真实的事故恢复情景。
在一次次的演习中,红军不断改进作战流程调整策略,通过演练检验自己,角色和职责更加清晰,能力也越来越强。蓝军不断寻找新的场景,通过演练检验场景的价值,增强对场景的理解。
演练逐渐成为一种红蓝军共同的期待,走向了真正的对抗。有时候大家为一场演练争得“面红耳赤”,甚至和真实事故处理已无两样。身经百战的红军求胜心被极大激发:“每次演练都只得60分,下次我一定要找到问题出在哪” 、“看来真得紧抠一秒钟” 。而蓝军,每当碰到一个网上场景或者现网返回的故障单板,都如获至宝,仔细研究构造新的场景。
在这种切磋中,红蓝军已完成了30多场对抗,就像一对双螺旋,不断地“逼迫”对方成长:作为蓝军,红军不断“逼迫”你研发新的高价值的作战场景,将未知变已知;作为 红军,蓝军不断“逼迫”你完成更多的场景识别,调整为最优的作战流程,在事故问题处理中游刃有余。
新的挑战,30分钟恢复事故
2018年1月,部门将控制器事故恢复要求从60分钟提升到了30分钟。然而,大半年过去了,红军的作战能力仍然维持在60分钟左右,遇到了瓶颈。
接下来,我们应该如何训练?能力提升的本质是什么?红蓝军进行了深入的思考和研讨。能力提升的本质是作战人员思维方式和行为方式的提升,演练的本质就是改变思维方式和行为方式。
改进和提升从来都不是一蹴而就,而是一个艰苦卓绝的修行过程。从7月开始,我们开始采用“单元作战法”训练——把事故恢复过程,拆解成一个个解耦的单元,一个人为一个单元负责。比如,针对如何5分钟内完成日志分析,5分钟内确认告警,5分钟完成二进制日志分析,5分钟做出基础恢复命令,10分钟基站搬迁,展开一系列“艰苦”的训练。这个战法,和满广志的“任务指挥法”如出一辙,即“行动时限、目的和达到的效果”。
我们相信,真正的铁军一定诞生于长时间艰苦的训战中。
2018年5月22日,控制器完成了历史性的1000天“零事故”。在这个过程中,很多守护网上平安的战士不分昼夜,不分节假日7*24小时投入战斗,坚守“零事故”的承诺,守护承载近20亿用户的无线网络平安运行。
1000天中,蓝军见证了红军的蜕变与成长。1000天后的每一个日子,蓝军还会坚定不移地以“严酷”的要求来“挑战”红军,倔强前行,全力以赴;会坚定地做一支深入战场、发现问题、剖析问题、解决问题的蓝军,成为一支护卫网上平安的“神秘”部队。
本文为《华为人》版权所有,未经允许不得转载。如需转载请联系编辑部hwrb@huawei.com
华为人期刊
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。