开发者社区> bqospzg5rfs7g> 正文

如何建立高效告警体系提升日常运维效|学习笔记

简介: 快速学习如何建立高效告警体系提升日常运维效。
+关注继续查看

开发者学堂课程【如何建立高效告警体系提升日常运维效:如何建立高效告警体系提升日常运维效】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址/learning/course/940/detail/14751


如何建立高效告警体系提升日常运维效


内容介绍:

一、为什么需要智能警告平台?

二、ARMS智能告警平台

三、多告警源接入

四、应对告警风暴

五、AIOPS智能告警平台-收费模式


一、为什么需要智能警告平台?

1、传统告警系统面临的问题

①企业越来越多商运营需要大量的监控系统,比如说需要 skyok 做 tracy ,普顿休斯做 matures ,一套 es 或者云上的日服务做日志的相关监控,以上已经包括三种系统,不包括云监控等为平台提供监控的自身平台。众多平台没有统一的监控告警,需要维护联系会非常复杂,这是一个大的管理问题。

②其次,它难以形成形同上下文的一种关联,比如说:某个接口出现问题,可能云监控的拨测报警,日服务的日志也在报警,甚至是应用监控也在报警。这些报警之间毫无关联,此类问题是云上属于较大的痛点,同时无效告警也比较多,无效告警即是业务系统出现非常关键故障时,其他系统也可能出现相关的告警,且告警较多会把关键信息淹没,导致无法正确识别告警。

③最后一点即现在会发生报警较多却没人管的情况,即便有人管理也无法得知管控情况,关键性的告警从发生到修复需要的时间有多长,每天有多少是在处理,企业的 attr 能否计算得出,这些都是云上做有监控系统没有告警平台去解决所产生的问题。


二、ARMS智能告警平台

快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,帮助运维团队减少告警,避免告警风暴。

通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

ARMS 智能告警平台解决以上问题,集成众多监控系统包括 ARMS 本身的应用监控,云上的云监控还有日志服务等,本身集成十几家监控系统,提供开箱即用的能力。同时为了更好的写作,把协同的工具流放到钉钉中,用户可以通过钉钉来处理和运维相关的告警。提供用户分析的大盘,帮助用户分析告警是否每天有人处理,处理的情况如何。


三、多告警源接入

1、一键接入ARMS智能告警平台

告警的具体步骤:从事件源中产生一个事件,可以理解为告警的 event ,事件本身不会直接发送进来,需要和告警联系人匹配后才可生成告警流程。如图所示流程如下:

image.png

使用该系统通常出现的问题即:配有事件不知道如何产生告警,必须事件加联系人才能等于告警。

2、自定义集成-灵活接入任意告警源

第二点:使用告警系统默认没有接入,提供灵活的告警源的接入方式,按照自定义的接入方式,传入 event ,帮助清洗字段最后形成告警平台可以理解的告警。

比如:存在一个工单系统,其中产生比较重要的 event ,往告警平台传入的时候,可以把工单系统的报警警事件通过 web hook 的方式发放到告警平台,识别设置相关的内容,通过电话短信的联系方式通知到用户。本质上是接收事件,用户将告警团队配置到平台,平台将告警事件与团队的联系人相匹配发送。

具体操作如下:

首先打开控制平台,左侧列表最后有告警管理的单独模块,打开首先看到概览,其中包括接入的过程以及事件处理的流程等。比如说:已经使用应用监控,在应用监控中先创建一个告警 ruler ,条件应用响应时间,待用次数大于一次时,产生告警。此时,产生 event 事件,在通知策略位置选择不指定通知规则,点击保存。产生事件会自动的出现在概览位置,告警规则匹配后会产生各种事件展示于屏幕。如图所示:

image.png

若是其他的服务需要到指定服务区把规则设置完好。将之前相应的事件传递过来,完成后可在报警的事件列表中看到。事件发送进来后进行降噪处理,识别告警事件最多的关键词是什么样,观察哪些关键词高度重复,哪些内容是高度匹配的,进行压缩。也可以根据给出的关键词,比如:不希望出现测试告警,就可将屏蔽字进行屏蔽,则该类事件不会传入到告警事件中。告警事件传入后,所有事件均会传入到事件池中,则需要对事件进行分配,明确谁接收事件,谁对事件进行通知和排班的管理。比如:按照alertname或者其他的字段对于pod状态进行一个匹配,生成一个告警。可以在联系人中配取相关的联系人也可以导入,导出,配置钉钉机器人等统称为联系人。之后在通知策略中进行进一步的配置,在通知人/排班位置选择机器人或者真人接收告警。或者通过工单系统比如 general,desk 平台进行对接,保证信息可以传入抵达。配置完通知策略,再产生告警时可以收到相关告警,比较推荐使用钉钉来接收相关的报警,如图所示:

image.png

接受到如图所示的告警,用户仅需拥有钉钉账号,不需要了解相关信息或者登录平台,直接对告警进行认领,因为钉钉系统是分度集成,在认领完后可进行解决,该过程均会记录到活动中。用户明确知道该过程有人处理,同时针对该情况每天进行统计,告警的数量,哪些没处理以及整体的处理情况如何。

若团队大,较多的运维同学,存在 l1,l2 分层运维通选时,使用排班功能,对线上进行排班(如图所示),同时也可以进行升级策略的管理,比如:十分钟内没人认领时,可以对重要告警进行升级,属于告警的一种能力。相关的运维管理或者总监还需要了解多个告警每天都在发生,经过一段时间后是否有收敛或者说平均的 ngter 应用平台工具后是否有提升。可以用告警大盘了解每天告警平均响应的时间,处理情况以及报出 mttx 的统计。根据需求将相关的数据放入到用户的大盘或者是用户的普修斯数据进行二次开发。

image.png


四、应对告警风暴

告警不仅是管理和收集的过程,很多时候虽然发现告警,但是是否可以在告警的处理过程中阿里是否能给出建议或参考?首先,阿里会基于类似应用监控的产品提供一系列默认报警的能力,默认报警,提供相关的诊断能力,具体如图所示:

image.png

其中的 insights 功能,针对告警的默认情况生成报表,在报表中告知用户当前突针对原因,整体检测哪些原因导致。一般来说,诊断漏记和普通的诊断漏记一样,应用图针线检测多个主机是否有图针,是否影响多个接口有图针,若接口的相应时间的图针和类型一致的情况下,接口中的那些方法先有的图针,传递的路参是什么?为什么有此类图针?能否给出案例告诉用户哪些萃词较慢?通过报告做出提供,如图:

image.png

可以结合当时打出现成的堆栈再次确认是 matches , handler 的方法,结合上下文对数据进行定位和分析。这是 ARMS insights 针对告警问题相关的深入报告。快速整合上下文包括普顿休斯监控以及监控的相关数据均整合到相关报告里,进行全方位检测来收敛相关问题。


五、AIOPS智能告警平台-收费模式

关于收费问题,该服务本身存有事件不收取费用,仅收取短信,电话,邮件基础费用,可以认为仅是通道费用。(如图)

image.png

版权声明:本文内容由便宜云服务器实名注册用户自发贡献,版权归原作者所有,便宜云服务器开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《便宜云服务器开发者社区用户服务协议》和《便宜云服务器开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
GOPS 全球运维大会 | 便宜云服务器网络自动化运维体系落地实践分享
GOPS 全球运维大会 | 便宜云服务器网络自动化运维体系落地实践分享
270 0
阿里超大规模 Flink 集群运维体系介绍
以智能和云原生为技术内核,建设实时计算运维管控产品,来解决超大规模 Flink 集群运维和应用运维碰到的稳定、成本、效率三大难题。
1427 0
大搜车面向复杂业务场景的研发运维体系治理实践
通过统一研发流程、统一稳定性保障体系、统一云原生化,来解决复杂业务场景带来的语言异构、中间件升级、研发流程体系与稳定性保障体系不统一等技术挑战。
753 0
阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘
ASI 作为阿里集团、便宜云服务器基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛、透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让云产品只需要负责自己的业务,专业的平台分工做专业的事。
783 0
Soul运维总监尤首智:企业如何从0到1建设云上运维体系
提升运维效率,积极推进运维稳定性及平台化建设,持续探索云上能力,借助公共云的帮助实现soul的自有业务迭代。
990 0
云原生时代的运维体系进化
基于容器、Kubernetes 等云原生技术,提供的开放社区标准、不可变基础设施、声明式 API 会成为企业 CloudOps 的最佳实践,也将在这个基础上推进数据化、智能化体系建设,将运维复杂性进一步下沉,让企业可以聚焦于自己的业务创新。便宜云服务器也将持续向外输出自身在超大规模云原生实践和探索中的能力沉淀,与更多企业、开发者一起,躬身入局,全面拥抱云原生运维技术体系。
3116 0
阿里巴巴超大规模Kubernetes基础设施运维体系揭秘
ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施。ASI 基于便宜云服务器公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的Serverless化的基础设施平台。
2689 0
+关注
bqospzg5rfs7g
文章
问答
视频
来源圈子
更多
技术图谱:由专家组参与技术图谱的绘制与编写,知识与实践的结合让开发者们掌握学习路线与逻辑,快速提升技能 电子书:电子书由阿里内外专家打造,供开发者们下载学习,更与课程相结合,使用户更易理解掌握课程内容 训练营:学习训练营 深入浅出,专家授课,带领开发者们快速上云 精品课程:汇集知识碎片,解决技术难题,体系化学习场景,深入浅出,易于理解 技能自测:提供免费测试,摸底自查 体验实验室:学完即练,云资源免费使用
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
快速应对热点流量峰值,微博云原生运维最佳实践
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载


http://www.vxiaotou.com