你是我的“眼”,让我看见这世界就在我眼前:融天业务可观测平台助力运维1-5-10能力构建
1-5-10是阿里巴巴提出的故障处置目标,即1分钟发现、5分钟定位、10分钟恢复,被越来越多的企业所借鉴。作为IT运维的美好愿景,1-5-10是一个系统性工程,非一朝一夕能够实现。
华青融天基于业务可观测平台、全链路监控,助力用户构建和提升云上云下运维监控1-5-10能力,保障系统可用性、业务连续性。
分布式架构转型面临的运维挑战
在从传统集中式IT技术架构向云化+分布式IT技术架构转变演进过程中,传统监控与应急手段较难支撑分布式架构下的故障快速定位和处置(1-5-10),主要体现在以下几方面:
01 实例规模成倍数增长,系统运行状态指标繁杂,横向服务调用链路复杂,纵向资源池化带来的垂直依赖和连接访问关系纷杂,运维可观测不足,无法快速定位解决问题; 02 应用云原生后,云内云外应用混合部署,云原生服务和非云原生服务共存,状态感知困难,运维定位定界难度增加; 03 链路环节多,故障成因复杂,横向水平跨应用,纵向垂直跨专业等因素,导致故障难以溯源、找到根本原因。 构建运维监控1-5-10关键能力
为了应对IT技术架构的快速变化,如何更有效的构建和提升运维监控能力则显的尤为重要。针对分布式技术架构的运维痛点,我们可以从以下三个方面入手,构建1-5-10能力。
全链路监控能力提升 通过监控平台,能够1分钟内发现异常。实现此目标需要具备全链路监控手段,不仅能够将应用全面纳入监控,应用的黄金指标可被观测,且监控指标能够实现分钟级采集、加工、处理和可视化大屏展现。 故障定界能力提升 发现异常时,能够在5分钟确定问题根因边界。通常可通过专家经验,借助监控平台告警事件、指标判断、基于AI算法的智能异常检测(关键指标变化)、基于拓扑图的故障节点呈现(故障自动定位)等方式和手段快速界定故障根因。 应急能力提升 当故障原因明确后,能够在10分钟内恢复故障。常规方法包括扩容重启、资源自动伸缩、一键主备切换、执行应急脚本等,快速恢复业务状态。 业务可观测助力1-5-10能力构建
使用过融天鹰眼EZSonar业务可观测平台的用户都清楚,EZSonar采用网络旁路通讯流量监控方案,获取应用之间通讯的网络流量,通过对4大黄金指标(交易量/请求量、响应率、成功率、响应延时)进行实时监控,快速发现问题,分析问题。
那么EZSonar是如何通过自身功能来支撑1-5-10能力的达成呢?
1分钟发现
基于应用通讯的旁路方式,实时采集网络流量进行解析,对交易数据进行加工清洗,生成时序性指标数据。
当异常发生时,能在分钟级内快速发现,并通过业务墙功能展示应用系统端到端近一分钟内的实时指标数据,包括交易量、请求量、响应率、成功率、响应延时。

5分钟定位
基于EZSonar的AI智能异常检测算法和丰富多样的告警类型加持,当应用故障产生后,通过业务路径功能能够及时在应用节点上展示对应指标的告警提示。当多个应用节点产生告警时,依据末尾原则,可快速定位到根因节点。


10分钟恢复
定位到故障点后,可依据运维响应流程,快速执行下一步恢复预案。待处理完成,通过EZSonar仪表盘功能观察故障是否完全解决。

云上业务可观测的方案实现
当然,我们也经常听到运维团队对于云内应用流量获取的诸多问题抱有困惑,在此也一并做以说明。
通常来说,应用部署在云环境,要么是传统的虚拟化架构或者各大云厂商的云平台,如常见的vmware、openstack、kvm、阿里云、腾讯云、华为云等,要么是基于容器技术,如常见的docker、containerd、k8s、ACK、TCE等。

基于非容器技术部署的云上应用,一般情况下应用所在主机的IP是不会发生变化的。此种情况可以很方便的通过流量采集程序将应用之间的通讯流量获取到,输出给EZSonar业务可观测平台即可。
需要特别说明的是,基于旁路镜像的流量采集程序占用资源非常低,不会影响用户的生产业务;同时流量采集程序以用户态进程运行在操作系统用户空间,不侵入应用程序;而且流量采集程序部署非常便利,一条命令即可完成。

基于容器技术部署的云上应用,因为容器的消亡重建,IP会发生频繁的变化。但融天鹰眼EZSonar业务监控系统需要固定不变的IP,才能持续对应用进行监控。如果IP发生变化,则会影响到监控效果。
以比较流行的k8s集群容器编排技术为例,我们知道容器POD IP是会频繁变化的,那么只需要通过在k8s集群的各个节点上部署一个额外的DaemonSet POD流量采集器(对业务无影响),即可将POD之间通讯流量输出给EZSonar业务可观测平台。

DaemonSet POD流量采集器资源占用非常低;一般单独部署于额外的命名空间,不和生产业务现有命名空间关联。此外,DaemonSet POD流量采集器采集的流量采用隧道封装方式输出至EZSonar探针, EZSonar可以基于隧道流量封装的一些特性,确保其同一段服务对应的POD之间流量的连续性,故而POD IP变化不影响监控的连续性。
云上云下业务可观测实战效果
华青融天EZSonar业务可观测平台,以先进智能的算法和技术架构为基础,以上帝视角实时观测业务系统的运行状态,提前预警、及时发现和处置潜在风险,助力客户构建和提升1-5-10关键能力。
以下为某项目中EZSonar基于云上云下应用实现的全路径实时指标监控案例:


我们看到,当云上微服务应用出现指标异常时,EZSonar在业务路径图对应节点上即可实时展示告警提示,并一步跳转至告警详情,为运维人员提供更加详细的分析内容。


