银行业运维工具图谱

      说起银行,可能大家最熟悉的在日常生活中,享受着他们提供的存贷款、行内外转账、快捷支付等种种便利的金融服务。对于使用者来讲感知到这些金融服务的好坏,很大程度上取决于自己在使用这些服务过程中的主观体验,这些看似简单的金融服务实际上已经随着祖国的高速发展走过了30年(1989-2019)的峥嵘岁月,而银行业IT也是在所有金融行业中投入规模最大、要求标准最高的行业,接下来我们一起粗略探究下这个神秘且错综复杂的IT世界。  

稳定可靠安全

      虽然说今天国内大大小小的银行有4千多家,但是在国内干银行这个生意从来都不是件简单的事,权且不说起步资金、牌照的问题,光是这两年,银保监会出台的各类防范金融风险的管理要求,都能堆起一层楼那么高。在防风险的行业大背景下,那对外提供的金融服务就必须是稳定、可靠、安全,这就需要银行筹建各类业务系统来共同保障支撑,按照银行常规的分类大致包含渠道整合类、客户服务类、应用集成类、产品服务类、管理分析类等各维度的业务系统,这些系统通常又会被集中在银行诸多自建数据中心进行统一运维管理。虽然这样做的成本非常高,但在国内稍微上规模的银行,基本都是采用自建数据中心的方式来保障数据安全。

      拿我们接触比较多的手机银行来说,一笔行内转账动作,都至少会涉及好几套业务系统共同配合完成(跨行转账更复杂),每套业务系统之间的访问链路一般称之为交易路径,每套业务系统内都包含很多逻辑应用模块、软件/应用实例、相关系统/处理单元等逻辑节点,这些还通常都是软件部分,它们又被部署在不同数据中心不同机房的基础架构/通用资源、设备环境基础设施上,只有同时保证所有与之相关IT软硬件的稳定、可靠、安全运行,才能保障转账这个动作可以正常运行。
     
      至于每笔转账是否真正成功还需要考虑是否金额大小、双方账户金额增减一致、双方账户是否被标记老赖、受法律约束人员以及法规安全类系统进一步检验。

      这一切看起来异常的复杂,随着规模和复杂度的攀升,靠人肉来运维保障肯定不现实,因此采用适当的工具替代人肉是必选之路,而这些工具体现在IT层面上大致分为:面向机房基础环境运维管理、网络资源运维管理、系统资源运维管理以及应用资源运维管理四部分。由于每部分工作内容差异较大,在数据中心中也通常会被划分在不同的部门独立开展,当然数据中心还有其它非常多的职能部门来共同保障银行业务的正常运行,本次我们重点先聊下这四部分比较通用运维管理工作内容及其使用的工具。

机房基础环境

      数据中心的机房基础环境是业务系统、IT设备安身立命的地方,也是每家银行在前期重点投资的地方,其主要包含机柜、空调、消防、安防、弱电、UPS等最基础的机房环境设施,在数据中心通常由设备管理/基础设施部门负责管理,他们的目标是保障机房环境及硬件系统可用性、可靠性和可维护性,因此工作内容大致会涉及:
  1. 数据中心机房环境规划建设(机房、机柜、服务器和网络设备、综合布线等),制定相关的管理原则、方案和实施流程;
  2. 负责机房基础环境(风火水电、温湿度、视频等各类硬件设备)及系统的建设、运维和管理;
  3. 负责各类计算机设备、基础环境设备出入机房审批登记及各类硬件设备的扩容升级、微码升级、老化更新、故障修复、维修配件及耗品需求管理;
  4. 负责机房环境日常管理,进出入机房内/外部人员进行授权和审批登记管理、日常巡检等;
  5. 其他杂项工作,如机房内部环境,是否有易燃易爆物体,需要及时清理。
      为了实现日常运维管理工作高效运转,他们通常会采购大量不同门类的系统,其中包括安防类系统(园区楼宇的安全防护,门禁,视频等监控)、消防类系统(机房内烟雾探测器,灭火设施等管理)、环境检测类(机房内温湿度、漏水、气体等检测)、供电设施类(机房内配电设备,发电机、UPS、机柜PDU管理)、散热类系统(空调设备,新风及冷水机组等监控)、资产管理类系统(机房内软硬件基础设施、资源生命周期监控管理)等诸多与基础设施相关的运维管理工具。

      随着新兴技术的革新,又催生出一批基于RFID的资产管理、人员定位系统,基于激光雷达图像识别的智能巡检机器人以及基于数字孪生技术构建出立体式、可视化的新一代数据中心管理软件,这些新型工具与过往传统工具相互衔接配合,目前已经基本可以让管理人员足不出户就能实时掌控机房基础环境中的各类有效信息,大大提升管理效率。

网络运维管理

      如果把机房基础环境当做一个人的身体,那数据中心网络则相当于人身体的骨骼和神经,负责维系各肢体的有序运行,也是数据中心建设前期重点投资的地方,其主要包含网关、路由器、交换机、防火墙、负载均衡、入侵检测、AC控制器、光传输设备、域名解析等最基础的网络通信设备,在数据中心通常由网络通讯/网络管理部门负责管理。由于网络运行的质量、稳定性会受到传输、交换和终端等诸多不确定因素干扰,时常成为运维故障中的背锅侠,但是他们也是能人辈出的地方,从他们的工作内容大致也能看出一些端倪:
  1. 负责建立全行网络建设总体架构规划、网络运维管理流程和工作机制制定;
  2. 负责各类基础网络设备、网络安全设备、网络管理工具以及网络通讯线路等的实施、运维和管理;
  3. 负责定制全行网络设备扩容升级、老化更新以及网络通讯线路开通、关闭,软件版本升级、VLAN/Zone划分和监控运维管理;
  4. 负责全行骨干、外联、局域、园区网络访问可用性和访问质量保障、网络性能优化、策略管理、故障排查、网络病毒查杀和网络安全防护;
  5. 不仅负责数据中心内部局域网的运维管理,还会涉及总部终端网络接入&重点线路保障、数据中心和各一级分行、海外分行的骨干网络、第三方合作单位的外联线路质量保障。
      这么复杂纷繁交织的网络设备、线路管理依靠人肉来运维肯定是行不通的,因此在数据中心发展初期,最不能或缺的就是网管工具,时至今日还有一些城商行依然维持着一套网管工具包打天下的局面,但是随着数据中心的规模和复杂度的不断攀升,需要更加精细化的网络运维管理,因此出现了资产管理类系统(设备、端口、线路、IP等资产资源管理工具)、配置管理类系统(对设备运行参数、业务策略配置工具,由于各品牌设备可能存在自身的私有协议,因此可能涉及多套各厂商配置管理工具)、流量分析类系统(抓包解包、协议分析等工具)、故障管理类系统(采集、分析、告警上报工具)、性能管理类系统(网络性能、设备性能、终端性能、组件性能工具)、维护类系统(告警处置、工单流转、知识库、运维文档等工具)、安全管理类系统(入侵防护、态势分析、用户行为分析、日志分析等工具)等诸多与网络相关的运维管理工具,随着传统网络开始逐步向SDN转变又会带来一系列新的运维管理工具。下图是我们在某个客户项目中需要对接到很小一部分工具列表。
      看到网络团队内这么多零零散散的工具,于是很多小伙伴会问他们怎么能用的过来?是的,这也是整个网络运维中大家比较头疼的事情,虽然说购买了如此多的工具,但是这些工具直接又相互隔离分散,从OpenView出现那个年代如何打通设备、端口、线路之间的衔接关系,再叠加上告警、性能、日志等信息及自动化操作一直是网管工具的梦想,只是当时受限于技术门槛一直迟迟未能实现,目前来看市场上已经有国产软件实现这一目标,正在以一种新的运维模式改善现状。

系统运维管理

      如果说机房基础环境相当于人的身体,网络相当于骨干和神经,那系统恐怕就是人的各种器官了,回顾整个IT发展历程,计算存储都占有举足轻重的地位,比如当初IBM的大机不仅自带网络、存储还会配备终端,属于一站式对外提供服务。随着开放平台和X86的兴起,在此基础上又衍生出来了计算、存储虚拟化、云化资源等供给模式。计算存储资源由于是所有软件和服务的直接载体,数据中心每年在此都投入巨大,虽然不同银行会根据系统规模划分出形式各异的运维部门,但他们的工作内容却相差无几,主要涉及:
      1.负责数据中心主机系统(包括操作系统、主机通讯、主机存储、主机带库、中间件、数据库等子系统)的环境建设,开放平台系统(包括操作系统、中间件、数据库、开放存储等子系统)的环境建设,X86平台系统(包括操作系统、中间件、数据库、存储等子系统)参数配置及性能优化,建立各平台系统的运维管理流程和工作机制,一般对于大中型银行来说这些可能是分散在不同部门来分别运维;
      2.负责实施主机系统、开放平台、X86平台的技术支持,包括系统环境及存储的需求受理、环境搭建、资源配置实施、性能优化、生产变更和日常维护等工作;
      3.负责主机系统、开放平台、X86平台系统的日常维护和管理,包括例行维护、事件处理、问题解决、系统版本升级、应急方案制定和演练、系统运行状况跟踪和分析、评估资源使用情况等工作;
      4.负责同城备份中心及异地灾备中心计算和存储资源的容量配置实施确保同城备份中心及灾备中心所承载系统环境的安全、可靠;
      5.负责全行防病毒工作,制定全行防病毒整体方案、架构和策略并组织实施。
      不难看出由于银行数据中心可能同时出现多种系统平台以及传统数据中心和云化数据中心并行的现象,因此会涉及很多功能相似但适用范围不同的系统,例如计算存储资源类系统(资产管理、云化资源池管理及存储管理等工具)、基础软件类系统(不同操作系统、不同中间件、不同数据库的管理工具)、监控类系统(硬件、软件、存储类监控工具)、虚拟化系统(服务器虚拟化、存储虚拟化等工具)、自动化类系统(资源调度、软件安装、日常跑批等工具)、维护类系统(告警处置、工单流转、数据备份、知识库、运维文档等工具)等诸多与系统相关的运维管理工具。

      拿手机银行系统来说,其WEB可能部署在X86平台,APP、DB可能部署在开放平台,如果大家按照不同系统平台来划分,以上工具各买一套,独立维护就会造成工具竖井现象出现,但是如果按照计算存储资源和基础软件进行划分,就需要实现跨平台工具能力整合,如何能在一套系统中看到所有运维信息就变得尤为重要,这也是很多新型运维软件试图解决的问题。

应用维护管理

      如果说机房基础环境相当于人的身体,网络相当于骨干和神经,系统是人的各种器官,那业务系统恐怕就是人的灵魂意识了,这块也是银行正常经营之本,可谓重中之重,因此银行基于信息安全考虑都会独立设置一个与数据中心平级的软件中心,来专门负责筹建自己的业务系统,而在数据中心通常也会有一个应用维护部门与其对接,每当应用系统批次投产或重大变更上线时,软件中心通常会跟应用维护部门共同承担一部分工作,上线完成后再交由应用维护部门做后续维护工作,因此大致会涉及工作内容:
  1. 负责维护应用系统各项生产活动,包括应用投产环境(含生产、准生产、投产演练和灾备环境)准备、准入控制、系统升级、系统下线、灾备切换及应急演练等相关工作,确保生产变更的安全性和有效性;
  2. 负责配合进行应用投产测试、运行风险评估,协调落实内外部与应用系统测试任务相关的基础环境、计算存储和基础软件环境、测试数据及相关技术支持等工作;
  3. 负责收集和整理应用系统运行信息,编制统计分析报告、定期对应用系统进行数据备份、介质管理和数据恢复等工作,确保业务数据的完整性、保密性和可用性;
  4. 负责应用系统24小时生产运行监控,承担各应用系统的联机开启、关闭及批量运行;
  5. 负责应用系统软件、硬件及系统日常维护、事件处理等工作,当应用出现严重问题,及时协调各专业团队和软件中心进行解决,做好问题记录。
      应用维护在数据中心是最接近银行业务的部门,也是运维复杂度最高的部门,而且还受监管要求,为了避免受到监管处罚及早于服务台投诉,因此在日常运维中更加依赖工具来响应处理分析应用系统当前状况,例如从如何加快应用上线部署类系统(配置管理、自动化平台、服务开通等工具),到观测应用系统运行状态的监控类系统(日志、监控告警分析等工具)和性能类系统(业务可用性、业务关键绩效指标、应用性能、真实用户体验、业务仿真等监控工具),再到出了问题快速有效的容灾类系统(应急管理、灾备切换等工具),以及日常维护类系统(告警处置、工单流转、数据备份、知识库、运维文档等相关工具)等诸多与应用相关的运维管理工具。

      但是在实际上应用系统出故障的因素太多,涉及范围太广,当故障发生时就特别需要根据交易代码/交易流水号/错误码快速生成故障点的上下游交易链路,再把业务性能监控数据、等信息进行叠加进行可视化呈现,帮助运维人员进行故障定界,指导各专业部门协同排查,而这个时间可谓分秒必争,因此面向业务运维的工具在当前市场上都是炙手可热的工具。

运维管理的转身

      从现实来看机房基础环境、网络、系统、应用这些工作,目前都强依赖使用各种不同专业工具进行维护,而这些工具在国内基本已是红海市场,同质化产品严重。客户有时只是想要一个小功能却不得不又购买一个能力相近的工具,再加上每家银行又有一定的独特性,会根据自己的习惯和管理流程自主研发很多小工具辅助提升运维效率,因此一家银行有百十套运维管理工具就不足为奇了。随着数据中心基础设施迭代更新,IT架构转型升级,在实际过程中对应的产品工具也会越来越多,而且如何解决跨专业的故障排查,尤其是当某个业务系统或某支交易发生故障时,排查起来就异常的困难,因此随着数据中心运维管理工具的逐渐累积,这种部门墙和工具墙就会被愈发的放大,如何实现跨专业故障排查就越来越迫切。
   
      因此早在2010年前后,各大银行已经开始从整个数据中心角度去思考整合运维管理工具,比较典型的就是当时行业大佬围绕配置管理提出”监”、“管”、“控“运维体系架构。
      近些年银行业随着数字化转型和业务优先上云战略的逐步落地,银行IT逐步转变为以客户为中心提供优质金融服务的使命。随着客户个性化需求的增长,银行IT对外提供的应用和服务也愈发的多样化,传统的IT服务管理也从最初的软硬件维护、故障排查、保证业务系统“稳定、可靠、安全”运行,逐步被面向业务交付成果的目标所取代,因此银行IT将更加关注“体验、效率、效益”为主题的IT运营。而Gartner预测这一转型将在2025年实现。
    
      同时Gartner认为未来5年银行IT建设更多围绕用户体验、持续交付和性能分析来重新调整构建IT运营管理工具,以更好地适应用户在数字化银行方面不断增长的需求,并给出至少应当建设的3大类工具图谱。
      
      而在我们理解这些工具之间应该更加紧密的衔接起来,结合各种运营场景实现工具间资源优化整合,逐步形成一套新的运营体系架构图谱。
      
      这个架构图谱相当于把之前的运维工具重新优化整合划分为6个维度:

      1.底层专业管理工具

      该维度属于运维基础数据的抓手,将原先各专业分门别类的监控采集能力进行汇总,形成面向不同使用场景的监控管理工具体系,实现对IT环境的各类基础资源对象进行管理,比如硬件资源监控管理、通用软件资源监控管理、应用资源监控管理、用户操作体验管理等;

      2.自动化管理工具

      自动化主要是为了补充或增强运维人员手动过程,包括可以使用脚本实现对系统软硬件进行更改,也可以提供编排机制来集成不同系统和管理工具,以执行单个或多个流程工作流。由于传统数据中心和云化数据中心在银行业还要同时存在好多年,因此目前基本包含一套面向传统的自动化管理工具和另一套云化自动化管理工具;

      3.配置管理工具

      配置管理作为银行IT运维的数据中台,也是运维中永恒的老话题,不仅作为各领域运维支撑工具的数据共享服务平台,而且还肩负着IT运维标准化和自动化的重任,因此这是银行IT转型升级的必备工具;

      4.大数据分析工具

      该领域工具通过对日常运维中各种结构化、半结构化、非结构化数据进行集中收集,再结合机器学习和智能算法在特定场景下进行分析预测,从而在故障发生之前做到预测隔离,降低解决问题所需的时间和精力,提高业务响应和客户体验,比如预测伴随业务增长对依赖IT基础资源的可用性和性能要求,以实现优化成本的目的;

      5.可视化运营管理工具

      可视化作为帮助人们降低理解和消费数据的门槛的重要手段,诸多复杂分散的服务管理工具有了可视化的加持不仅可以让运营支撑管理过程可见、可管、可理解,而且也是用户、管理者、员工喜闻乐见的,因为用户体验好了、运维好掌控了、企业就效率高了;

      6.服务管理和安全管理工具

      在对IT环境的基础资源进行有效监控管理之后,此时IT运维工作已经基本可控。为了实现精细化运维,让运维工作从“活着”转变到“活得好”,通常都会考虑对业务、组织、工具间相互协作进行资源合理优化,主要包括服务目录管理和运营自服务管理还有安全管理这个永远说不完的话题。
随着云计算、大数据、人工智能这些新一代信息技术的兴起,银行业在去IOE进程上也走到了最后的攻坚阶段,互联网企业也开始在银行业攻城略地,新一代国产运维管理软件也逐步崭露头角,开始在银行中逐步替代"4Big",诸王纷争序幕已经拉开,相信国产软件的春天已来。