工商银行成本优化实践

来源:本站原创 浏览量: 发布日期:2024/3/28 9:05:33

近年来,伴随着金融数字化转型的持续推进,金融业对云计算技术的研究与应用愈发深入,极大地提升了IT基础设施的敏捷性和运维效率。与此同时,随着IT资源投入规模的迅速增长,IT资源利用效率不高等问题也逐渐凸显,并成为金融机构急需解决的重要问题。在此背景下,面对资源不合理使用难以识别、云账单数据庞大复杂、云产品计费模式复杂多变,以及优化流程管理不健全等诸多挑战,工商银行引入FinOps相关理念,创新搭建云成本运营管理体系,积极探索实现金融云降本增效的可行路径与方法。

一、工商银行云成本效益优化总体思路

根据FinOps基金会提出的理论框架,云资源降本增效的落地路径主要涉及成本洞察、成本优化、成本运营等三个方面。围绕上述内容,工商银行逐步落地一系列成本优化技术,研发FinOps平台,成功构建了云成本运营管理体系(如图1所示)。


工商银行成本优化实践


图1工商银行云成本运营管理体系

一方面,工商银行持续完善成本优化手段,着力建设以“按实际运行需要进行资源分配”为核心思想的云平台柔性计算体系:一是打造覆盖数据库、应用的纵向及横向弹性伸缩能力,全面提升资源分配的灵活性;二是基于包括多服务级别、在离线、异构算力等在内的多种资源混合部署,实现不同优先级应用、大数据批量与通用算力、CPU与GPU异构算力的云资源混部调度;三是将Serverless技术引入分布式批量、数据库等领域,实现云上应用资源使用效能和研发效率的双重提升;四是基于IaaS和PaaS资源池的柔性调配,实现资源池的柔性预留和快速转换。

另一方面,工商银行规划并推动建立FinOps平台,以成本洞察为数据基础,以成本运营为驱动力,实现常态化的云成本运营机制:一是以云平台提供的监控和指标体系为数据基础,深度挖掘云平台底座和应用层的资源不合理使用情况;二是基于成本洞察数据,设计实现覆盖资源申请评估推荐、资源运行分析、资源优化激励的成本运营可持续流程。

二、成本洞察,多维度分析资源用量

与头部科技公司相比,工商银行通过对生产环境虚拟机和容器层面的CPU采用超分策略,使整体的云资源利用效能一直保持在业界较高水平,但在云资源精细化调度等方面则仍具有较大潜力;同时,IaaS层和PaaS层的资源预留比例也存在一定的优化空间,资源分配率有待进一步提升。此外,随着云计算技术的快速发展,云原生用户对观测指标的深度和广度也有了新的要求,除了传统环境的系统和应用监控指标,云平台的监控指标也变得非常重要。例如,基于云平台监控体系,深层次剖析云资源使用现状,不仅能够从资源使用视角建立云成本的可观测性,还可为分析环境中各组件的性能表现提供数据支撑。

为此,工商银行基于Prometheus监控体系采集IaaS层物理机、PaaS层宿主机,以及容器的CPU、内存及IO等基础指标,聚合集群、节点、应用、容器等多个维度,构建了集监控指标采集、分析、加工于一体的云资源监控体系(如图2所示)。在此基础上,工商银行基于Grafana实现数据中心、集群、应用和模板的资源聚合,以及对计算节点、宿主机和容器等基础资源的可视化展现,覆盖各维度资源的使用率、分配率、申请率、TOP10以及使用趋势等多项运营指标。

具体来说,该模块通过从平台侧展示不同层级的资源分布情况,计算PaaS层、IaaS层的系统资源预留、应急资源预留等数据,显示各层真实资源预留和实际可分配情况,呈现各节点资源碎片和剩余真实可分配资源的信息,可有效识别平台和应用层的资源闲置情况;此外,通过从应用侧计算和展示各应用的资源申请量、实际使用量,并根据资源画像分析应用的资源使用趋势以及资源分类,支持为不同类型的应用推荐不同的资源配置,进而帮助应用更加准确地评估运行资源需求。


工商银行成本优化实践


图2工商银行云资源监控体系架构

三、成本优化,挖潜与增效并举

1.落地混部技术,高效复用闲置资源

随着云原生架构的快速普及,混部技术作为提升物理资源利用率、降低运营成本的有效方案,受到了业界的一致认可和推荐,其通过将不同业务类型的应用负载混合部署到同一资源池,可利用不同业务在资源使用类型、资源使用周期等方面的互补性,有效提升服务器资源的使用效能。针对该领域,工商银行结合行内不同业务资源池的实际使用情况,选择在离线业务混部、高低优先级混部、异构算力混部三个场景开展了混部技术实践。

一是在离线业务混部。与业界类似,工商银行的IT环境同样由以大数据服务为代表的离线业务资源池和通用在线业务资源池组成,也存在因资源池隔离而导致的各业务在流量低峰时的空闲资源无法被有效利用的问题。为此,工商银行针对性构建了在离线混部系统,着力打造了在离线混部调度和混部服务质量保障两大核心技术能力。其中,在离线混部调度基于应用优先级模型,可将批量计算任务定义为低优先级的离线任务,将在线应用定义为高优先级的在线业务,并利用节点趋势负载调度、资源均衡化调度等智能调度策略,将大数据离线任务调度至较空闲的节点。混部服务质量保障则是当批量计算任务与在线应用发生资源争抢时,可利用内核级资源隔离能力保障高优先级的在线应用资源供给,如干扰持续,还可通过驱逐低优先级的批量计算任务进行资源出让,并结合资源双水位线控制、干扰检测等技术手段,有效保障混部场景下在离线应用的服务质量。

二是高低优先级混部。根据在线应用的重要性及敏感性等级划分,工商银行将在线应用分别定义为高优应用和低优应用,同时基于AI技术的资源画像功能,可分析挖掘高优应用的闲置资源,并将其重新加入云资源池,之后再基于混部技术将低优应用动态调度到闲置资源池,进而实现对已申请未实际使用云资源的二次复用。此外,混部系统在感知到资源干扰的情况下,还可快速对低优应用进行重调度,防止影响扩大,从而在提升集群资源“超卖”比例的同时,确保应用服务响应时效扰动低于5%。

三是异构算力混部。随着人工智能大模型等热点技术的落地应用,以GPU为基础的AI算力规模持续快速增长。一般情况下,AI算力服务器在配备GPU资源的同时也会配置CPU资源,而由于人工智能服务更依赖GPU资源,因此CPU资源存在相对冗余情况。对此,工商银行通过将使用通用算力(CPU资源)的应用和使用AI算力(GPU资源)的应用混合部署到相同物理资源上,复用在离线混部系统的内核资源隔离、干扰动态检测等技术,并结合资源配额管理,实现异构算力混部,在保障服务器GPU资源充分使用的前提下,进一步提高了CPU资源的使用率。

综上所述,工商银行通过积极探索在离线混部、高低优先级混部、异构算力混部以及CPU资源超分等技术在金融领域的应用,以及利用资源隔离、干扰检测、主动避让等技术手段保障混部场景下的服务质量,进一步提升了混部资源池的使用效能,达成了“提质、增效”双赢的目标。

2.打造函数计算服务,实现资源按需供给

近年来,Serverless技术成为继IaaS、PaaS、SaaS之后又一种新的云计算能力提供方式。作为金融业云建设的先行者,工商银行在2018年便启动了Serverless技术研究工作,通过将业界主流的Serverless技术栈与行内“云计算+分布式”体系融合,建设了具备极致弹性伸缩能力的全托管Serverless平台(如图3所示),并在AI模型、批量任务、接口聚合等多个场景中落地,有效提升了业务迭代效率。

截至目前,Serverless平台已拓展至小程序应用、音视频处理、流式消息处理等近十类场景,显著提升了云原生基础设施对上层业务的支撑能力;同时,平台采用事件驱动的技术架构,实现根据业务交易按需供给运行资源以及非业务运行期间的应用资源零占用,并成功落地系统巡检、标准化流水线等七大类场景的40余个应用,大幅提升了应用资源使用效能。


工商银行成本优化实践


图3工商银行Serverless平台架构

3.打造弹性伸缩能力,重塑资源供给模式

随着Kubernetes和云原生技术的广泛普及,越来越多的企业开始大规模部署容器。然而,在Kubernetes技术应用初期,业界并没有成熟的弹性伸缩开源产品可以借鉴或使用,为此,工商银行自研了名为Autoscale的弹性伸缩组件。Autoscale可根据用户配置的伸缩规则(包括监控周期、CPU阈值、指定待伸缩模板等),周期性地从Prometheus获取CPU等指标实时数值,并结合阈值判断或时间周期完成容器的自动伸缩。实践中,工商银行基于KEDA(Kubernetes Event-Driven Autoscaling)打造了全新的弹性伸缩服务,并在此基础上扩展实现了基于时序预测的弹性伸缩能力,进一步提升资源使用效率,实现了资源动态管理。

具体而言,一是引入基于事件驱动的弹性伸缩器KEDA,通过对接Prometheus等事件驱动器,为应用接入提供了更加丰富的伸缩指标(如CPU、内存等);同时,通过建设伸缩规则管控模块,支持多触发器规则组合配置,使容器伸缩条件不再局限于单一规则类型,高效满足了多种场景下的弹性扩缩需求。二是在完善弹性伸缩扩展机制的基础上,引入人工智能算法搭建了时序预测伸缩系统,通过使用AI预测算法和容器历史指标数据等进行模型训练,使指标变化周期和趋势的预测准确性提升至80%以上,并采用“预测+指标”“预测+定时”等规则组合模式为预测偏差提供兜底机制,有效保障了业务连续性。

截至目前,工商银行已经在生产环境规模化应用无状态容器横向弹性伸缩技术,并通过“优雅启停”机制解决了在途交易受损问题,生产月均自动扩缩达到数千次(包括Autoscale、KEDA以及预测伸缩等),不仅有效降低了应用常驻的峰值资源占用率,也使得其可更加从容地应对业务突发高峰。

4.引入纵向伸缩技术,助力有状态容器资源治理

中间件及数据库作为实现应用“云化”的关键组成部分,早已在工商银行实现容器化部署,其中MySQL数据库容器数量更是达到数以万计。然而,容器作为不可变基础设施,资源配额更改需要重新创建容器,并有可能对数据库、消息队列等有状态应用造成严重破坏,甚至导致应用业务中断。对此,工商银行在缺少业界经验参考的情况下,自行探索出一套无需修改K8s源码亦可实现绑核容器资源配额在线调整的技术方案,并通过依序执行资源限制调整、容器配置调整和唯一标识调整等三项策略,确保了底层容器配置等元数据的一致性,保证容器在资源配额变化时不再重启。

目前,工商银行已完成纵向伸缩技术在MySQL容器场景的全面推广,为有状态容器资源治理提供了有力支撑。实践中,容器云平台集成有状态容器在线纵向扩容功能,具备可视化、易操作的自服务能力,能够在有状态容器负载大幅增加等应急场景下实现资源快速扩容;此外,平台还支持对资源利用率不达标的数据库容器进行在线治理,不仅极大地简化了运维操作步骤,还在保证业务连续性的同时,达成了提高数据库资源使用效能的目标。

5.整合资源池碎片,提升宿主机装箱率

在大规模开展云化部署的过程中,由于业务需求变化、业务容器部署规模调整、容器与宿主机或计算节点的规格不完全匹配等原因,资源池会出现空闲碎片资源,影响资源使用效能的提升。为此,工商银行通过对空闲碎片资源进行精细化统计分析,采用整合再利用、容器规格优化等措施,有效提升了容器集群的宿主机装箱率。

一是实现容器装箱算法优化与集群弹性扩容。面向多集群场景,工商银行分别对容器云管理平台和集群两级调度方式进行优化,通过分析整合用户容器申请需求、计算集群资源分配情况,不断探索应用容器部署的最优方案,提升整体资源使用率;同时,通过优先将小内存规格容器调度到碎片资源宿主机,进一步提高了宿主机的容器装箱率。此外,如果存量集群资源无法满足,容器云平台还可联动基础设施云,完成宿主机资源供给和集群节点纳管,实现集群自动扩容。

二是实现容器CPU超分比例分级管理。多年来,工商银行一直采用CPU超分策略来提升其平均使用率。然而,通过对普通业务集群的长期性能观测发现,业务容器极少会因为同时出现业务高峰而发生CPU争抢的情况,且宿主机的CPU实际使用率往往长期处于较低水平,资源利用效率不高。对此,工商银行结合应用等级划分规则,对相应容器规格实施了自动分级管理,通过适当调高低等级应用容器CPU超分比,同时配合宿主机内存规格的在线扩容措施,使可分配的CPU和内存资源达到最优比例,在无需应用配合改造实施的情况下,快速提高集群的容器部署密度;此外,借助混部技术性能干扰检测和处置能力,当出现系统性能热点时还可主动驱逐低等级应用容器,优先保障高等级应用容器稳定运行。

三是实现IaaS平台升级资源预留压降。为了降低云底座升级对业务的影响程度,工商银行采用了对待升级节点进行分批热迁移腾挪虚拟机之后再进行升级的策略。在此过程中,虚拟机腾挪需要在资源池预留一定的资源,但如果预留比例过小,会影响升级效率,而预留资源过大,则会使资源池闲置资源得不到充分利用。对此,工商银行结合业界先进经验和行内资源实际使用情况,积极探索云底座资源预留优化的可行方案,并根据不同资源池大小、升级效率、虚拟机规格、资源碎片等设置最优比例,成功在不影响升级效率的前提下,柔性降低了资源预留比例,进一步挖掘了虚拟化资源池的可用资源。

实践中,工商银行通过对IaaS和PaaS资源池采用一系列柔性调配措施,实现存量资源挖潜和碎片复用,不仅进一步提升了PaaS容器部署密度,降低了资源碎片损耗,还在减少IaaS资源池预留资源的前提下,高效保证了云底座的版本升级效率以及HA故障恢复能力。

四、成本运营,持续完善运营体系

1.构建应用资源画像,以数据驱动成本优化

云计算作为一种可按需使用的资源,通过对云上应用的运行特征进行分析,可为合理开展资源配置提供可靠的数据支撑。为此,工商银行采用资源分类打标技术和时序预测算法,建设了应用资源画像平台(如图4所示)。该平台可基于应用过去一段时间的CPU、内存负载状态,利用机器学习技术预测应用未来一段时间的资源使用情况,并结合相关算法实现精准的资源配额推荐和副本数推荐。

其中,资源配额推荐是指基于Percentile算法,计算应用CPU、内存资源使用的P99线数据,并提供两种规则的配额推荐方案:一种是根据不同等级的应用设置不同的目标峰值利用率,得出CPU、内存的推荐配置;另一种是根据预留冗余资源的方式,分别配置CPU和内存的冗余系数,并结合P99数据得出CPU、内存的推荐配置。副本数推荐则是根据不同等级的应用配置不同的目标峰值利用率以及最低副本数,然后计算应用资源使用量的数据分布,并以此分析满足目标峰值利用率的推荐副本数。当推荐副本数低于配置的最低副本数时,优先保障高可用最低副本数,进而得出资源配置推荐方案。


工商银行成本优化实践


图4应用资源画像基本架构

2.建立专项资源治理团队,增强成本优化意识

在云成本的优化治理过程中,成本优化成员往往分散在技术支持、业务应用、生产运维等多个部门,如果缺乏权威专业的牵头团队和管理制度,往往会出现工作难以落实的情况。为此,工商银行组建了专项资源治理团队,通过规范的资源评估及治理流程,持续保障生产资源高效使用。同时,团队针对弹性伸缩、纵向伸缩、资源混部和函数计算等云成本优化技术,分别制定了用户指引,引导应用根据业务特点选择合适的优化手段,并规范相应的接入流程,确保应用遵循各项技术的最佳实践,在保障业务连续性不受影响的前提下,实现资源利用效能的最大化。

云成本优化治理是一个持续迭代的过程,成本控制贯穿于事前、事中、事后整个资源生命周期。对此,工商银行通过搭建成本优化平台,实现了云成本闭环管理:一是在事前成本管控方面,项目组可根据项目规模、所用技术、业务场景等评估资源使用情况,并基于规划评估结果,在系统中提交资源申请单;同时,各相关人员也可进行资源评估、评审和协调及结果审批,并在系统中进行反馈。二是在事中成本优化方面,当完成资源交付后,平台可基于柔性计算技术不断提升资源使用效能,并获取相应的监控数据。三是在事后成本分析方面,平台可定期开展数据分析,形成周期内的应用资源使用报告,并提供资源使用预警、成本优化推荐等功能,实现以数据驱动的资源全生命周期管理。

五、云成本效益优化实效

工商银行结合成本洞察、成本优化和成本运营三阶段最佳模型,系统性践行FinOps理念,并初步建立了契合行内运营模式的云成本优化机制,通过成本意识和奖惩机制双轮驱动,确保云成本管理机制发挥长效作用。实践中,工商银行通过对监控体系的深度优化以及一系列柔性计算技术的规模化应用,有效提升了云资源使用效能,累计节省资源折合物理服务器近千台,同时在切实保障高稳定性的基础上,进一步缓解了数据中心的资源供需矛盾,高质量推动数字化转型进程。

作为构建云原生新型基础设施的核心支撑,弹性伸缩、函数计算以及混部等技术同样也持续推动应用架构向高可用、高弹性、自动化的云原生应用架构迭代演进。例如,云平台借助其弹性可扩展和高可用等能力,平稳支撑了快捷支付“双十一”大促、春节红包发放等互联网高并发场景,以及纪念币抢购、线下店商圈秒杀等业务场景,并在秒杀完毕后可快速回收服务器资源用于满足其他业务需求,支撑各应用从容应对业务高峰。

此外,在数据库容器化部署的场景下,资源冗余被压缩至较低水平,而且为应对数据库内存CPU或者内存需求突增的场景,工商银行基于纵向伸缩技术多次实施应急快速扩容,成功化解内存突增带来的可用性风险数十次,有力保障了生产安全。函数计算则通过平台提供的统一运维能力,极大地降低了应用运维工作量,让相关人员无需关心基础设施管理细节,可更加聚焦业务研发。

六、未来展望

紧跟业界前沿趋势,工商银行将继续以FinOps理念为指导,围绕“提升资源使用效能”这一核心目标,持续推进资源混部、函数计算等技术的规模化应用,同时不断完善云成本洞察与运营体系,构建云成本核算机制,加速推动金融云降本增效,并在软硬协同、智能调度等领域提前布局,着力探寻新的赋能突破点。

一是基于专用数据处理器(DPU)的云原生高性能基础设施架构,进一步释放CPU算力。DPU是将“以计算为中心”的网络数据处理逻辑改变为“以数据为中心”,以提高数据处理效能、降低CPU性能损耗的新一代计算芯片。基于国内尚无金融同业落地成熟案例的情况,工商银行拟联合科技公司共同开展DPU软硬件技术的攻关研究,以实现金融级的DPU硬件定制和配套软件研发,构建基于软硬协同技术架构的全新云平台。

二是基于负载感知的智能动态调度,实现资源利用率和系统稳定性最佳平衡。Kubernetes作为资源编排调度的基础,虽然其原生调度策略可以满足绝大部分通用场景需求,但如果仅根据应用资源请求分配而不考虑节点实际压力,极可能出现集群压力冷热不均,甚至负载过高影响业务的情况。对此,工商银行将继续推进基于负载感知的智能动态调度能力研究,通过应用分类打标、节点真实负载辅助调度、热点分级重调度等技术手段,在保障业务连续性的前提下,着力构建面向金融业务场景的FinOps核心技术体系。

三是基于大数据和机器学习技术,不断提升云成本预测和资源优化策略的准确性。未来,AI技术将驱动云成本管理领域实现重大变革,如通过收集大量的云使用数据和业务数据,运用机器学习和深度学习算法进行模式分析、异常检测和需求预测等,可以实现更为精准的成本预测编制,以及制定更加智能的资源分配方案。对此,工商银行将持续探索用数据驱动的方式取代传统经验法则,加速实现云成本管理的智能化和精准化,并面向训练和推理AI大模型带来的巨大算力需求,针对性开展探索与实践,进一步降低成本、提升效率。

参考文献:

[1]中国信息通信研究院.云计算白皮书(2022年)[EB/OL].(2022-07-19)[2024-01-15].http://www.doc88.com/p-39659813428435.html.

文丨中国工商银行金融科技研究院





管理会计师CNMA是由财政部直属事业单位北京国家会计学院推出的管理会计证书项目,分为初、中、高三个等级,致力于培养具有国际视野、符合中国国情、具有鲜明中国特色的管理会计师人才。

工商银行成本优化实践


文章标签