零事故背后|揭秘NGSOC如何助力冬奥安全运营中心——标准化运营篇

2022-03-25 14:56:09来源:威易网作者:

如果说冬奥安全运营中心是奇安信得以兑现“零事故”承诺背后的重要保障,那么安全运维和应急响应就是安全运营中心的保障。下一篇我们将进一步为大家介绍,关于冬奥安全运营中心的安全运维保障和应急响应保障背后的故事。

       揭秘NGSOC如何助力冬奥安全运营中心--规划和建设篇展示了冬奥安全运营中心从最开始的规划设计,到将NGSOC作为核心安全监测平台,再到交付部署和如何保障NGSOC安全稳定运行的技术攻坚过程,本篇将重点介绍冬奥安全运营中心是如何进行标准化运营的。
 
        “磨刀不误砍柴工” 标准化流程才能高效运营
       提起冬奥安全运营,冬奥安全运营中心现场项目经理仝磊回忆道,“冬奥安全运营最大的挑战在于,随着2020年以来我们实现了冬奥项目所有安全产品的交付部署及多次升级,团队人数不断增加,如何才能实现高效运营?”实际上,早在初期规划阶段,考虑到冬奥项目相较于常规项目的复杂性和重要性,团队已经预测了可能出现的问题并制定了完整的安全运营方案,但在方案执行过程中,还是发现了不少问题。
       2020年冬奥安全运营中心监控人员还只有四五人,到了2021年人数扩增到二十多人,加上所有测试赛、场馆的驻场人员,一线团队多达两百多人。随着人员增多,原有流程难以有效保障工作流程运转,仍有团队成员搞不清安全事件的处置流程,沟通过程中难以凸显重点,从场馆到总部的跟踪、汇报流程也众说纷纭。
       在问题日益凸显和冬奥组委赛时要求提升的背景下,解决高效运营挑战迫在眉睫。于是在2021年初,团队成立专门的小组,调动集团作训部专家、安全服务部门的咨询专家、攻防专家和NGSOC事业部人员共同制定冬奥SOP(标准作业程序),主要包括安全运营流程、安全运维流程、应急响应流程。这一标准详细划分了监控岗、分析岗、运维岗、处置决策岗等不同岗位,并明确各个岗位的详细工作内容和工作标准。此外,为了保证流程高效执行,NGSOC产品团队也进行了一系列的测试。
       第一轮测试从2021年2月初持续到4月底,这也是第一次将安全运营SOP也投入使用。虽然标准投入使用,但过程并没有想象中顺利,团队成员在短时间内很难快速熟悉并严格执行,同时,流程本身也还有不少问题要完善。但随着不断的测试和演练,以及对所有冬奥一线人员进行培训和考试,到了2021年8月份,安全运营SOP才算是真正形成。
       虽然从初期交付部署到2021年底测试运营,梳理标准化流程很累、很繁琐,但是有了SOP,到了2022年1月23日进入冬奥准赛时阶段后,整个团队反而轻松下来了。所有人都能熟练掌握SOP,明确知道自己的工作内容,该如何汇报、如何处置,对NGSOC平台操作也高度熟练。虽然人数多,但是整个团队高效协同、有序处置,绝大多数的安全事件都可以通过标准化流程解决。
       回想起这一段,仝磊说:“我们真正的通过标准化流程实现了常态化运营,这一点我们非常自豪。”而且整个过程下来,每个人的责任感和参与感更强了,标准化动作和流程可以有效纠偏,各个岗位犯错几率大大降低,安全事件处置不再完全基于个人技术,而是靠人+工具+流程高效有序的运转。
 
       “工欲善其事必先利其器” 安全运营需要工具协同
       在冬奥安全运营中心项目中,标准化流程的运转,离不开人和工具的紧密配合,而NGSOC作为冬奥安全运营中心核心安全监测平台,如何跟安全运营团队紧密结合保证SOP高效落地?
       首先,实用、易读、美观的可视化大屏。 
       NGSOC平台的监控覆盖到了网络中心、数据中心、云上系统以及众多场馆,所以如何对不同组织的安全状态进行呈现,让安全运营团队更快发现安全事件并且流畅处置,也是摆在NGSOC事业部冬奥项目组面前的问题,所以在做可视化设计的时候标出了几个关键词:实用、易读、美观。
经过了记不清多少次的改版调优,在可视化呈现上逐渐形成了综合网络安全监控大屏、各场馆网络安全监控大屏、实时监控大屏。
\
NGSOC-综合网络安全监控大屏
 
       实时监控大屏为冬奥安全运营中心的实时监控工作带来了最直观、最及时的呈现,可以实时的看到最新的告警数据统计、告警处置状态。当危急告警发生时,大屏通过告警提醒声音、屏幕特效方式为7*24H运营工作带来最及时有效的提醒,做到实用高效。
 
\
NGSOC-实时监控大屏
       “可视化大屏的呈现从场馆、应用系统维度,对面临威胁情况、事件情况、数据趋势情况做了直观的展示,满足了冬奥安全运营中心的使用需求。”NGSOC事业部冬奥项目经理表示,为了更好呈现展示效果,协同奇安信可视化团队投入了巨大的人力,对竞赛场馆做实地踏勘,在短短两个月内实现了所有竞赛场馆的3D建模,最终效果惊艳众人,实现了实用、易读、美观的综合呈现。
\
NGSOC-场馆网络安全监控大屏示意图
       第二,云上云下全覆盖,监控能力全面提升。
       在冬奥安全运营中心项目中,NGSOC平台共计接入云上、云下1000+种数据源,涵盖终端、服务器、网络设备、安全设备、应用系统、业务系统等所有核心资产。日志种类超过80类,日均35亿日志,存量日志千亿级。
       为了实现对冬奥云上服务全方位、无死角的持续安全监测,结合云上服务的安全架构设计,NGSOC共采集了云上网络、主机、数据、监控审计四大部分共18类数据源、30余类日志,共设计60+个安全监测场景。在日常运营期间,监测到数千起云上安全事件。
       第三,奇安信全产品体系接入、协同、联动。
       2021年8月,奇安信冬奥项目组紧急成立联合项目组,目标是以NGSOC为核心,集成各个产品日志与流量分析能力,以解决冬奥会现场常态化安全运营与应急响应问题,经综合评估,实现8大产线(NGSOC、椒图、天眼、天擎、威胁情报、锡安、SOAR、天狗)产品联动的研发及所有安全产品日志接入和解析的工作。按照冬奥项目工期进展,大家只有19个工作日去完成这项任务,这对项目组来说是一项几乎不可能实现的挑战。
       时间紧迫,各产品线都在争分夺秒。到了联调阶段,因NGSOC研发人员有限,及时调整应对策略,形成了1对多的联调模式(1个人并发对接多条产线),从开发方案到对接联调。为了交付满意的答卷,NGSOC事业部冬奥项目组所有人日夜奋战,积极推动各产线工作进展,只要发现阻塞性问题立即想办法解决,得到了各产品线包括冬奥组委的高度认可。
       除了产品联动外,还有安全场景的打通这一重要任务。8大应急安全场景、40个常态化运营场景一并完成需求拆解、方案设计、开发、测试、交付上线。最终,NGSOC首次在冬奥实现了与奇安信全产品体系的集成。从各设备的日志接入,数据的集中呈现、关联分析到安全能力的协同、联动,安全运营人员只需要通过NGSOC即可实现一站式监测、调查、响应闭环,无需在众多的安全产品之间来回切换。
       当所有的工作接近尾声时,看到各个研发团队交付的答卷,大家不禁松了口气,正是这样一支富有冬奥精神的团队,秉承着艰苦奋斗,披荆斩棘的信念赢得了最终胜利,完美地按照计划完成这项看似不可完成的任务。
       第四,设计上千个冬奥威胁检测场景。
       冬奥项目NGSOC预置规则有448条,到冬奥会开幕式之前,规则已经达到了958条,而且在赛时也会有新增的场景需求,每天也都在补充规则,冬奥结束时规则达到1043条,覆盖云上、云下所有核心资产的威胁、异常、违规监测场景。小到场馆的办公机、服务器上部署的业务组件,大到数据中心的业务系统、安全防护系统,几乎是有IP设备、有提供服务的系统就有采集其日志,有分析、监测价值的日志就有对应的监测场景。
       既有监测外部入侵、社工钓鱼、恶意破坏、恶意软件的各种威胁场景,也有监测内部人员违规、异常操作的场景;既有针对突发漏洞、安全事件的持续监测,又有针对日常运营期间各系统、服务运行状态的持续监测。在整个冬奥值守期间,通过外部入侵场景监控到1118次告警,违规、异常操作场景共监测到7起内部人员操作不当事件,常态化运营场景共监测到3起设备断电事件,6起数据断流事件。
       在冬奥项目中规则的优化达到145条,将告警由之前存在大量误报(由于业务触发的误报)让监控人员疲于分析,到现在日均告警量不超过427条,日志告警比为7860974:1,并且达成了无安全事件遗漏的成就。
       第五,设计高并发支撑多人同时运营。
       根据冬奥会项目对NGSOC平台设计要求,需支持200人使用50+人并发访问,这种规模前所未有。这种并发访问量对系统整体压力特别大,会导致系统负载急剧上升。对此,NGSOC研发团队主要的优化方案包括:其一,瓶颈节点进行集群部署节点优化,识别出瓶颈节点后,对集群的部署方案做出调整,资源向瓶颈节点倾斜,比如ES集群,在高并发的情况下性能损耗非常大,集群规模要保持在合适的量级。其二,优化数据库,调研冬奥会的运营场景,根据冬奥会的运营场景,对数据库配置进行针对性优化,通过性能监测工具排查所有耗时的数据操作,逐一进行设计与优化。最终NGSOC平台在日均35亿日志高吞吐和50+人并发运营条件下,实现了安全平稳运行。
       结语: 
       在“人+工具+流程”高效运转的支撑下,冬奥安全运营实战效果有目共睹。
       首先是标准化流程安全运营SOP的制定,充分保障了业务正常运转。冬奥网络安全监控值班经理提到:“安全运营SOP大大提升了团队信心,大家清晰明确地了解自己的岗位职责,避免因为事实不清造成处置不当。这样一来,比赛现场业务系统可以更加高效运转。”
       其次是NGSOC的多重功能极大提升了安全运营效率。如实时监控大屏,对于安全运营人员来说使用频率最高,这块大屏投放在冬奥安全运营中心正中间,每30秒刷新一次,高危告警会闪动和发出警报,所有人都可以看到告警情况,便于及时追踪、解决。告警TOP5,可以直观提醒安全运营人员可能规则有问题,当告警每天处于TOP5,可以在平台上查看告警的规则解释,NGSOC平台所有告警都可以看规则解释说明。这个细节极大的方便了我们查阅基于哪条规则产生的告警,方便找威胁建模工程师做规则优化,直接解决了告警冗余的问题。告警的高级筛选功能帮助特别大,通过预置的告警筛选器,每个监控值班经理看不同告警内容,极大提高了告警处置效率。
       “对于NGSOC作为运营平台的最大期望是能发现、能回溯,最好能通过一个平台发现所有安全事件,完成所有操作,NGSOC平台真的做到了。” 冬奥网络安全监控值班经理总结到,这要归功于NGSOC的高并发、全产品体系联动和对告警的妥善处置。
       首先是高并发,总指挥中心从监控岗、分析岗、处置岗等共计数十人同时在NGSOC上进行相关工作,这对NGSOC的并发要求很高,但是NGSOC在整个冬奥赛事期间,运行一直很流畅。其次,NGSOC与奇安信全产品体系的接入,监控范围覆盖了云上和云下所有业务,平台需完成所有的监测、分析、处置工作,与安全运营SOP进行紧密结合。此外,除了安全事件回溯外,平台还可以回溯告警处置人员、处置过程、处置结果,告警评论功能,可以将每条告警的处置写出结论,所有近似告警可以通过往期告警进行关联,分析是否历史出现和查看结论,从而快速分析研判,不需要重复走监控处置流程。
       如果说冬奥安全运营中心是奇安信得以兑现“零事故”承诺背后的重要保障,那么安全运维和应急响应就是安全运营中心的保障。下一篇我们将进一步为大家介绍,关于冬奥安全运营中心的安全运维保障和应急响应保障背后的故事。
 
 
关键词:冬奥