大数据和机器学习 > 开源大数据平台 E-MapReduce > 正文

通过云监控CloudMonitor实时捕获EMR集群的状态变化

简介: 通过结合CloudMonitor以及FC,可以实时捕获EMR集群的生命周期变化,如集群的创建和停止,扩容和缩容以及其他类型的集群状态变更等。
+关注继续查看

作者:锦琛@便宜云服务器


引言

开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。


云监控(简称“CloudMonitor”)是一项针对便宜云服务器资源和互联网应用进行监控的服务,为云上用户提供开箱即用的企业级开放型一站式监控解决方案。


函数计算(简称“FC”)是事件驱动的全托管计算服务。使用函数计算,您无需采购与管理服务器等基础设施,只需编写并上传代码或镜像。函数计算为您准备好计算资源,弹性地、可靠地运行任务,并提供日志查询、性能监控和报警等功能。


通过结合CloudMonitor以及FC,可以实时捕获EMR集群的生命周期变化,如集群的创建和停止,扩容和缩容以及其他类型的集群状态变更等。


本文演示如何捕获EMR集群状态变更(我们以杭州区域为例)并发送到当前常用的“钉钉”手机客户端,其他服务场景请酌情参考。


关键字

E-MapReduce,CloudMonitor,函数计算,事件通知,钉钉


处理流程

这是我们设计的EMR实时状态在各个产品之间传递链路图,从图上可以看出,当EMR发生状态变更时(如启动集群,停止集群,创建节点组,对节点组进行扩缩容操作等)系统会产生事件,事件消息送到CMS后会触发告警,CMS支持函数计算FC,告警触发后会触发我们准备好的FC函数,从而解析JSON格式的消息内容并发送给“钉钉”手机客户端(客户也可以基于公司内部的聊天工具进行集成,或者定义下一步的操作,从而实现基于事件的自动化告警处理和运维等,关于这一块,本文章暂不做延展说明)。

image.png


钉钉配置

配置钉钉群机器人必须使用电脑版的钉钉,登录电脑版钉钉创建钉钉群(此过程略,例如创建后的群名为!!!APM告警),然后点击群右上角的“设置”,然后点击“智能群助手”,如下图所示:

image.png

然后选择“添加机器人”,如下图所示:image.png

添加关键字“E-MapR”,其他关键字可自行添加,如下图所示:

image.png

在接下来的页面中会出现一个Webhook调用的URL,点击“复制”,类似如下

https://oapi.dingtalk.com/robot/send?access_token=aabbccdd

后面我们设置环境变量的时候将用到这一串aabbccdd

image.png


函数计算配置

打开函数计算FC的控制台(点击这里),选择左侧菜单的“服务与函数”,然后在右边的窗口中选择“创建服务”,如下图所示:

image.pngimage.png

创建后点击进入服务,随后点击右侧窗口“创建函数”,如下图所示:

image.png

选择“通过zip包上传代码”,其中代码的详细地址如下(也可以手工下载此文件,然后从本地上传):

https://emr.oss-cn-hangzhou.aliyuncs.com/best_practice/cms/function_ding.zip

上传后,在代码TOKEN处填写创建的钉钉机器人token,如下图所示:

image.png

保存后点击部署代码,如果没有报错,表示部署成功。


云监控配置

打开云监控的控制台(点击这里),选择左侧菜单的“系统事件”,然后在右边的窗口中选择“创建报警规则”,如下图所示:

image.png

弹出创建窗口后,在产品类型处填写“E-MapReduce”,事件名称填写“节点组扩缩容成功、集群创建成功、集群释放成功、节点组升配成功”为例,资源范围选择“全部资源”(也可以选择应用分组选择您想要监控的集群id),选择函数计算并选择之前配置的服务和函数名,如下图所示:

image.png

点击确认后,完成配置,并确保规则生效,如图所示:

image.png


测试验证

打开EMR的控制台(点击这里),部署一个DataLake的EMR集群即可(过程略)。


正确返回

因为订阅了创建事件,我们的手机客户端就可以收到类似如下的消息提醒(集群状态 STARTING-> RUNNING),如下图所示:

image.png


错误诊断

如果启动集群过程中并没有收到对应的提醒,请首先确认对应的环境,查看函数计算中函数调用日志有没有错误,如下图所示:

image.png


扩展

经过上面的文档指引和动手实验,我们基于EMR集群的生命周期管理(如集群创建,停止,集群扩缩,缩容等)都会有对应提醒,其实只需要修改文件“function_ding.zip”里面对应的解析的JSON文件的内容,这个流程可以复制到别的场景,例如ECS的相关操作。


除了钉钉告警之外,还有更多的用法,比如将数据写入oss,写入数据库等等,期待您的使用。





钉钉扫码进群,了解更多详情

image.png

版权声明:本文内容由便宜云服务器实名注册用户自发贡献,版权归原作者所有,便宜云服务器开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《便宜云服务器开发者社区用户服务协议》和《便宜云服务器开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于便宜云服务器 CloudMonitor云监控自定义监控大盘对 EMR 自定义监控实践
本文旨在分享 EMR 平台大数据服务基于便宜云服务器 CloudMonitor 的监控实践,给客户提供除了 EMR 平台默认监控以外,自建监控方式,适用于统一多个便宜云服务器服务的监控监控场景。
247 0
统一观测丨使用 Prometheus 监控 E-MapReduce,我们该关注哪些指标?
统一观测丨使用 Prometheus 监控 E-MapReduce,我们该关注哪些指标?
133 0
如何基于运维事件中心通过logstash进行日志关键字监控
日常运维过程中,很多场景都会有诉求,需要对日志关键字进行监测,以便第一时间发现应用/业务相关异常,如jvm日志的gc关键字、业务日志的error关键字。本文将介绍使用logstash对异常日志进行采集及推送。
155 0
网站流量日志分析--工作流调度--数据指标统计分析调度 | 学习笔记
快速学习网站流量日志分析--工作流调度--数据指标统计分析调度
28 0
可观测性:监控与日志|学习笔记
快速学习可观测性:监控与日志
74 0
K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布
SLS针对Logtail本身以及Logtail的管控组件alibaba-log-controller,采用K8s事件的方式,将处理流程中的关键事件透出,从而让用户能够更清楚的感知其中发生的异常。
286 0
SLS作业运行大盘错误处理最佳实践
本文通过具体案例介绍如何在CloudLens for SLS中解决Project作业监控大盘异常问题。
114 0
用户指南—监控与告警—计算资源监控
为方便您掌握实例的运行状态,PolarDB-X提供监控查询功能。您可以在控制台上查看计算资源监控和存储资源监控信息。其中计算资源监控展示了实例计算层资源的性能数据,本文将介绍如何查看计算资源监控信息。
61 0
EMQ
易操作、可观测的 MQTT Dashboard,集群数据尽在掌握
全新EMQX Dashbord一览,可观测性和可操作性大幅提升,通过Web页面轻松管理和监控MQTT集群,助力高效开发。
203 0
【新功能发布】Hologres Worker级别监控指标透出,提升自诊断能力
本文将会介绍Hologres在2022年7月新发布的监控指标,以及对应的排查手段。
816 0
便宜云服务器EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在便宜云服务器公有云的ECS和ACK平台。
+关注
扬流
致力于便宜云服务器开源大数据商业化
文章
问答
视频
相关电子书
更多
Elasticsearch全观测技术解析与应用(构建日志、指标、APM统一观测平台)
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载


http://www.vxiaotou.com