本项目案例由国泰君安证券选送参赛并荣获“观测先锋 · 2024 可观测平台创新应用案例大赛“——证券业卓越可观测建设案例奖。
大赛评审团推荐语
“国泰君安证券通过Bonree ONE将现有的应用性能监控产品与自研的链路监控智慧融合,不仅构建了统一的链路模型与全链路监控体系,更是以技术创新为驱动,树立了金融科技融合发展的新标杆,不仅彰显了企业深厚的技术积淀,更为行业提供了可借鉴、可复制的典范。”
——唐川 ITPUB总经理
项目背景
随着当今企业数字化转型的飞速发展,证券行业面临着多样化技术栈应用的深度监控挑战。在此过程中,实现整个应用服务流程各环节的深度洞察与实时监控追踪,对保障系统的稳定运行至关重要,基于此,国泰君安证券在可观测领域的建设目标也愈加明确,重点聚焦于提升云运维的精细化管理能力,以便为全链路故障诊断和智能化运维提供强有力的数据支撑。
具体建设目标包括:
1. 全链路监控场景。通过全面监控和观测整个应用的运行状态,确保系统的稳定性和性能。
2. 应用中台。针对应用层面,提供多维度的监控和异常处理。
3. 数据中台。专注于数据的高效接入、处理和分析,为监控提供数据支持。
可观测性建设过程中的难点及挑战
1.链路监控方案的分散性。国泰君安证券之前有两种链路监控解决方案,分别是博睿数据提供的应用性能监控和基于自研的链路监控,两种方案各自覆盖部分应用链路,未实现端到端的全链路监控覆盖。
2.数据融合的挑战。由于两种链路监控方案生成的链路数据各自独立,如何将这些分散的链路数据进行有效融合,以实现统一的链路模型和全链路监控?另外,国泰君安证券在监控真实用户性能体验时,前后端工具协议不一致,无法实现端到端串联,也增加了数据整合的难度。
3.监控场景的多样性。国泰君安证券需要在多个监控场景下实现链路监控,包括前端性能监控、应用性能观测、云产品基础监控数据融合,这些场景的多样性增加了监控系统的复杂性。
4.异常触发和告警机制的完善。在可观测性建设中,国泰君安证券需要建立完善的异常触发和告警机制,包括告警通知、产品联动和告警聚合分析,以确保及时响应和处理监控中发现的问题。
5.生态集成的复杂性。国泰君安证券在建设可观测性能力时,需要考虑与现有生态系统的集成,包括Restful API、Prometheus exporter、Grafana plugin等,这增加了技术实现的复杂性。
6.数据处理和可视化的挑战。国泰君安证券需要对接入的数据进行秒级汇聚、全链路加工、指标加工和事件加工,并通过Dashboard、Grafana可视化、移动端APP、H5页面等工具进行数据的可视化展示,以上难点亟需克服。
应用场景
1.全链路数据整合。通过整合自研调用链和博睿数据Bonree server探针的监控数据,国泰君安证券实现了从前端到后端的全链路监控,消除了监控数据孤岛的问题。同时通过Bonree SDK在国泰君安证券web、h5、app等应用中嵌入,拓展了前端用户侧服务访问体验的监控能力。
2.构建从基础资源、应用系统到用户体验的一站式监控覆盖 精准故障定位与复盘。
用户体验受损定位:精确应对客户性能问题,根据用户ID检索用户操作轨迹,定位页面缓慢、JS错误、慢加载等问题原因。
网络请求问题排查:网络请求中,针对缓慢与错误进行详细定位与排查,分段、分区域定位网络请求问题。
业务接口问题定位:构建业务层拓扑,对业务接口进行性能诊断与故障定位。
应用调用分析:通过横向与纵向双向构建应用服务之间调用关系,并通过调用链定位代码栈、SQL语句问题。
前后端关联分析:用户体验下降,一键关联分析后端服务调用关系,确认问题是发生在用户侧还是服务侧。
3. 智能化服务异常检测。Bonree ONE平台提供内嵌的通用化链路监控模板,快速满足监控配置需求,提供便捷直观的告警规则配置能力,满足不同服务的个性化监控需求,提供AI检测、预测能力,满足动态基线告警和预警场景需求。
项目成果与收益
1.实现全链路监控的整合,确保应用稳定性。通过采用统一的协议头进行传播,整合Skywalking和Bonree server探针的监控数据,实现了后端多链路监控产品的打通,消除了之前链路监控的断点,打造了一个全栈技术解决方案。通过该解决方案可持续关注证券业务接口的可用性与网络连通性,确保APP等应用稳定性监测,响应时间大幅缩减,保障日活用户的使用体验。
2.实现了完备的监控覆盖,快速准确定位异常根因 。应用Bonree ONE平台提供的内置监控模板,完成对主机资源、服务可用性、异常事件的模板化统一监控,辅以个性化配置的服务黄金指标、数据库、远程调用和消息队列请求情况的监控规则,高效实现了较为完备的监控覆盖,快速发现影响性能的方法代码、数据库和调用关系,减少MTTR,告警准确率高。
3.完成端到端的数据串联,提升用户体验。通过升级Bonree SDK,显著提升了真实用户性能体验的监控效果,提高了监控数据的连贯性和准确性,无缝关联DEM,实现端到端监控,进一步紧密连接了用户行为与后端服务的互动关系。
4.全链路智能数据分析,实现精准化业务洞察。优化了数据传输和处理流程,采用Kafka技术确保数据传输的实时性与可靠性,提升了数据流的整体效率。
5.与业务平台深度协同,推动服务管理自动化水平。Bonree ONE平台与国泰君安证券CMDB平台实现了深度协同,推动了服务管理自动化水平显著上升,有效提升了管理效率。
总结与未来规划
未来,国泰君安证券将结合Bonree ONE平台持续加强端到端全链路可观测能力建设,着重从以下几方面入手,不断提升业务场景的服务体验:
1.深化可观测性覆盖。国泰君安证券将结合Bonree ONE平台,在现有前端APP和后端应用性能监控的基础上,进一步拓展可观测范围,实现完全端到端的全链路监控,同时将可观测性扩展至更多系统模块和业务流程,覆盖更多用户触点,全面提升系统透明度与可控性。
2.聚焦业务,优化用户体验。基于现有的用户旅程监控数据,深入分析用户行为和性能瓶颈,制定更精准的优化策略;通过实时反馈机制和AB测试,逐步提升APP的整体用户体验和交互效率。