首都机场:直击核心痛点问题,优化变更操作管理体系
本网讯(首都机场股份公司:金姗 报道)在首都机场股份公司有着这样一个科室,他们7*24小时全面监控所有信息系统,不分昼夜地保障日常生产运行,它就是信息科技部信息生产运维管理模块(以下简称“SOCC”)。面对涉及203个信息系统的庞大范围,以及每年超过2,000余次的系统变更操作,为确保首都机场的绝对安全,对SOCC来说,如何做好变更操作管理就显得尤为重要。
有变更就避不开风险,控制风险就要通过变更管理,变更管理质量的好坏直观影响了运行安全的能力。在信息系统安全压力与日俱增的环境下,SOCC借助股份公司“最佳安全现场”试点之机,深入探究变更操作管理的最佳实践。
剖析总结,深挖焦点问题
在过去的时间里,SOCC根据ITIL的变更管理理念,打造了事前、事中、事后的三级管理体系。譬如著名的奶酪理论,通过增加奶酪层数,尽可能减少奶酪孔洞,达到减少安全隐患的目的。三级管理体系通过在每一层设置不同的管理角色,以及不同的审批、监管流程,确保安全风险、隐患的最小化和管理制度的高效落地。据统计,从2019年到2021年,每年约2000个系统变更中,由于变更操作失误导致的系统运行事件从4起降至2起。
为确保首都机场绝对安全,就要做到变更操作“零问题”。为此,SOCC成立专项小组,对过去三年发生的9起事件进行了复盘分析,归类问题,确定症结。识别出由于操作前审查、操作中控制、操作后优化三方面管控不到位,从而出现安全意识淡薄、系统风险识别不到位、权限控制不充分等诸多问题。
直击矛盾,专项破解提升
通过对“人员及系统审查”、“操作管理控制”、“操作后优化提升”三者剖析发现,主要问题是由于人员安全意识淡薄、技能欠缺、技术方案评审不到位、系统本身风险识别不足、权限控制不充分、缺少复盘等各方面因素造成的。因此,SOCC针对性地构建了专项管理模型,融入前文所说的事前、事中、事后的三级管理体系,变更前Check、变更时Control、变更后Review,即“CCR闭环管理模型”。
变更前Check环节
变更前检查包括四个方面:人员资质、人员安全意识、变更方案以及系统自身审查。
人员资质,包含技术资质和业务能力两个方面。每个岗位上岗前需符合对应技术资质标准,其次增加了人员业务能力的落实,确保每个参与变更的人员业务能力达标。据统计,2022年起,截至目前共培训考核相关业务人员及相关方864人次。
人员安全意识,着重以班组为单位,增加安全规定、会议传达、运维规定以及典型案例的培训、传达、宣贯及考核。据统计,2022年至今,SOCC四个班组共计培训相关内容194次,同时优化提升传达方式,更多采用分享、互动、交流,加深安全规章在大家心中的印象。
变更方案的技术评审主要通过ITSM系统的变更审批流程实现。一个变更,要经过技术审批人、管理审批负责人、变更经理层层把关,对方案一一进行审核,确认所有技术细节可行。2022年,SOCC重点增加了瑕疵变更审查环节,对审核不通过的变更进行分析总结。同时,定期对驳回变更的原因、注意事项以及改进方法进行组内讨论与分享,用发生在身边的实际案例提示大家关注平时关注不到的点。据统计,近一年在变更审批要求逐步提升的情况下,变更方案驳回数量呈季度递减趋势。
系统自身审查,即核心系统过堂整改。SOCC特制定了具体的系统过堂工具表格,最终识别出22个核心系统共计244项问题,入库隐患46项。目前,所有问题已全部解决、验证及关闭,确保了带病核心系统的全面清除。
变更时Control环节
变更时控制环节包括三个方面:控制操作时间窗口、控制操作者身份权限、操作过程专席监管。
控制操作时间窗口,在每天下午16:30之前,当日值班室汇总变更情况后报值班经理确认。值班经理知悉全部变更的相关性与重要程度,向分管领导确认后,确认每个变更的具体操作窗口排期。在具体操作开始前,需要再次与值班室沟通确认,获得当日值班经理的授权后,方可开始执行。
控制操作者身份权限,主要通过堡垒机实现。通过技术手段,操作者按照最小授权原则登录服务器,无额外权限登录其他设备。特别是核心系统,即使操作人有权登录,也须由系统管理员进行二次复核后方可登录操作,最大限度保证了身份认证的唯一性。
操作过程专席监管,即在值班室设置专用席位,包括:技术支持席位、变更操作席位、变更监管席位。变更操作监管分为两个维度:一个是技术层面的监管,主要对于操作指令、操作内容进行实时监管,确保操作人员的每一个操作指令都可以正常发出并收到正常反馈;一个是变更流程的监管,主要监管操作人是否严格按照操作方案执行,是否存在跳过步骤、简化流程的情况。监管人就坐在操作人旁边,发现异常,第一时间进行制止,确保整个操作过程安全合规。
变更后Review环节
变更后回顾环节通过两个维度实现,SOCC按照“闭环确认+提升总结”的思路,对涉及的操作进行收尾确认及进一步提升总结,实现了变更工作的整个闭环。
闭环确认,即变更结果确认、变更操作审计。在变更操作完成后,操作员及系统管理员会通知值班室操作结束。值班室结合监控平台相关告警及关联系统的正常性,确认是否达到预期操作结果,告知当日值班经理操作正常结束。当日值班经理会通过日报的形式,向部门汇报每日变更操作结果,最终由变更申请人完成ITSM中变更操作完成关闭选项,此时,整条ITSM变更管理流程形成一个闭环,操作成功。除此之外,信息安全模块会不定期通过堡垒机的日志审计功能,对变更的全部操作日志进行抽查,审计是否严格按照变更计划执行,是否存在不合规的操作,及时对发现的问题进行沟通确认和通报。
总结提升,即评估总结操作方案。系统管理员评估操作结果是否符合预期操作计划,对系统操作手册、应急预案、演练评估单等相关材料进行修缮补充,达到规避重复问题的目标。
迎难而解,实施卓有成效
“CCR闭环管理模型”在提出变更到变更审批过程中增加了人员的审核、系统的风险评估、方案的评审;在执行变更操作环节增加了多维的现场管控;在变更操作后完善了优化提升机制,从意识、技能、体系和制度等方面强化变更管理工作。据统计,实施“CCR闭环管理模型”强化变更管理流程后,首都机场股份公司SOCC未发生一起因变更操作导致的系统不安全事件,实施效果可见一斑。
未来,股份公司SOCC将继续努力,围绕“提升技术支撑能力”、“强化评估审核机制”两方面,依托智能运维平台等应用,持续推进技术工具的标准化和自动化升级。同时,成立各专业技术小组对接分类的业务系统,进一步完善和提升技术审核能力,推进系统变更操作更加安全、高效、可控。