尊龙凯时- 人生就是搏-官方网站尊龙凯时

【观测先锋·银行业卓越可观测建设案例】昆仑银行 一体化智能可观测平台保障业务稳定性

2024-12-27

本项目案例由昆仑银行选送参赛并荣获“观测先锋 · 2024 可观测平台创新应用案例大赛“——银行业卓越可观测建设案例奖。

大赛评审团推荐语

“昆仑银行通过代码级调用跟踪,实现了对应用从程序入口到执行全链路的监控与追踪,构建了可观测性运维的新高地。其使用Bonree ONE一体化智能可观测平台实现了精准剖析问题根源、实现逐层剥离分析的效果,显著提升了故障排查效率,成效斐然。”——刘晶 CIO时代联合创始人兼COO

1-1735271360115

项目背景


在数字化浪潮中,国内银行机构纷纷启动数字化转型战略,推动和赋能自身业务发展、内控管理、风险防控等,以期在激烈的市场竞争中脱颖而出。而在转型过程中,银行业往往面临组织敏捷性不足、网络环境运行不稳定、数据治理难、运维排障效率低下等问题,导致业务处理效率低下。同时,银行业务场景复杂多样,系统之间的调用关系、各模块状态等运维方式均需在业务探索中进行创新发展。


通过2019年应用性能监控平台建设,昆仑银行已完成对二十余套业务系统,两个APP,一个Web页面的性能监控,以及16套系统、39个城市、3个运营商的拨测任务。昆仑银行生产环境探针采集的数据量达2T,日处理数据量达100G,数据来源为行内受监控的应用系统、手机APP、Web页面,数据类型分为指标性数据、会话、调用链、小文件、快照、拓扑关系、配置信息等等,针对不同的数据类型有不同的数据保存周期。


可观测性建设过程中的难点及挑战


1. 在重要活动期间,排障效率低,亟需实时监测机制。在IT运维工作中,昆仑银行有时会面对一些较复杂的故障定位场景,比如在某年度党费缴纳活动期间,昆仑银行大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。这类情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的难题。


2. 银行业务场景多样,系统之间的调用关系、各模块状态等运维方式面临挑战。银行业务场景多样,业务需求经常发生变化,例如推出新产品、调整服务模式等。昆仑银行需要建立灵活的IT架构和运维流程,并及时调整系统配置和功能以满足业务需求,以支持业务的快速发展。


3. 数据融合的挑战。昆仑银行业务涉及大量的数据,包括客户信息、交易记录等。然而,这些数据可能分散在不同的系统和数据库中,格式不统一,导致数据孤立,难以进行全面的数据分析。


4. 系统架构复杂 ,业务稳定性难以保障。昆仑银行拥有庞大而复杂的系统架构,包括核心银行系统、支付系统、风险管理系统等。这些系统之间存在着复杂的依赖关系和集成需求,使得运维工作变得更加困难,银行系统的可靠性和稳定性对业务连续性至关重要,昆仑银行需要建立完善的技术架构和运维体系,确保系统的稳定运行,同时能够快速应对各类突发事件。

应用场景

1.应用系统,手机APP,Web页面的监控。昆仑银行使用博睿数据的Bonree ONE、Bonree Server、Bonree SDK、Bonree Browser产品实现对应用系统,手机APP,Web页面的监控。三个平台均由客户端及服务端组成,在客户端通过注入探针来获取客户端的数据,上报到服务端,由服务端对数据进行分析处理,最终展示出来。Bonree 产品总体设计采用分层架构的方式,具体如下图所示:

2

平台架构展示

核心模块:探针(Agent、SDK)、数据处理器(CONTROLLER)、数据处理存储中心、平台(Server、SDK、Browser)、AIOps智能告警/事件分析。

3

组件间数据流向

2. 生产环境监控。帮助银行内开发团队实时监测生产环境中的应用程序性能,包括响应时间、吞吐量、错误率等指标。通过监控,可以及时发现并解决潜在的性能问题,确保应用在高负载和高并发场景下的稳定性和可靠性。


3. 故障排查和问题定位。当应用程序出现故障或性能问题时,通过性能监控提供详细的指标和报告,帮助开发团队快速定位问题的根本原因。通过分析监控数据,可以找到瓶颈所在,并采取相应的措施来修复问题,优化应用性能并提升系统的稳定性和响应速度。


4. 分析用户行为,改进用户体验。性能监控可以跟踪用户在应用中的操作和体验,分析用户行为和反馈,了解用户对应用的满意度和痛点。通过结合性能数据和用户反馈,开发团队可以优化应用界面和用户交互,提升用户体验,增强用户对应用的忠诚度和满意度。

项目成果与收益



1. 故障应急排查,实现秒钟级性能诊断。保障重要活动期间系统的稳定运行。例如,在某次活动期间,昆仑银行系统突发故障,面对大量的告警数据,系统陷入无法有效聚合、关联分析、根因分析和故障诊断的困境。通过应用性能监控系统实现端到端的性能打通,快速定位性能问题,逐层问题剥离分析,实现秒钟级代码性能诊断,最终将问题发现和解决的时间从小时级压缩到分钟级,团队运维效率提升80%。


2. 代码级调用跟踪,实现业务全链路可观测。昆仑银行的网贷平台系统对性能要求很高,在接入博睿数据产品前,系统无法准确判断与网贷相关的系统运行是否缓慢。Bonree ONE平台帮助昆仑银行网贷平台实现对应用从程序入口到执行全链路的监控与追踪,迅速识别出下游系统存在一定的延迟问题,及时采取相应措施,确保了昆仑银行网贷平台稳定、安全地运行,给用户提供了优质的服务体验。


3. 实现运维数据标准化,为核心业务的稳定运行提供高质量数据支撑。项目实施过程中,Controller 作为探针接入和数据处理组件,接收并处理探针上传的各类指标数据。通过Config协议,Controller下发数据采集策略,控制探针按需采集数据;通过Upload协议,Controller接收原始数据并进行有效性检查、分类和规整,最后将数据入库。这一过程实现了运维数据的标准化,确保了数据的时效性、完整性、关联性和有效性。通过数据建模和治理,Controller为应用监控和智能分析等场景提供了高质量的数据支撑,提升了运维效率,并帮助团队更快速地定位和解决问题,保障银行核心业务系统的稳定运行。

4


总结与未来规划



1.构建数字化运维体系。昆仑银行通过积极应用性能监控系统,打破了银行传统运维模式,借助数字化转型手段,精准评估企业的科技创新能力,推动科创金融服务向精准化、智能化再进一步,为客户提供更具价值的金融服务。


2.积极赋能业务创新发展。应用性能监控系统为银行的业务发展提供多样化的支撑和突破点,监控运维工作内涵呈现多元化,并将数字化的理念进一步内化到自身的日常业务经营和金融服务中,赋能业务部门,提高了业务部门的执行效率,实现业务与技术更深层次融合。


3.打造一体化智能可观测运维环境。昆仑银行对运维监控管理体系进行全面升级改革,以低成本的方式打通跨部门、跨系统的流程,并且在全流程治理的过程中完成了局部数据治理,提高了可视化能力,提升了工作效率,降低了运维成本,使得银行的运维环境更加直观、安全并具备可观测性。


在不断前行的征程中,昆仑银行将始终坚持技术驱动、内外联动,赋能场景生态建设,深入探索以体验为核心、打造优质产品质量的全流程体验服务体系,也将继续协同博睿数据推进金融企业运维管理创新,根据自身特点和金融业务场景的需求,夯实网络运维系统的数字化管理基础,提升金融科技赋能水平,全面提高企业竞争优势。


企业介绍


昆仑银行是一家总部位于北京、分支机构遍布全国性的城商行,提供广泛的金融产品和服务,主要包括个人银行业务、企业金融服务、资产管理、投资银行等领域。作为一家创新型金融机构,昆仑银行致力于建立特色鲜明、富有活力的优秀商业银行,以稳健合规经营为基础,同时注重科技创新和风险控制,为客户提供安全、高效、便捷的金融服务。


新闻动态

立即体验一体化智能可观测性平台

欢迎拨打电话咨询

400-680-8085
微信 微信扫码 在线咨询
尊龙凯时