在日常运维过程中, 需要监测一些关键性的数据或者功能的使用情况. 搭建一套完整的预警平台需要耗费较多资源, 对于业务需求经常变动的场景并不合适. 使用阿里云日志服务以及钉钉机器人, 则可以快速搭建出一套预警功能, 满足业务部门需求.
创建 Logstore, 对接日志数据
阿里云日志服务对接的方式很多, 基本可以满足大部分生产环境的需求. 如果是基于 docker 的微服务架构, 则直接使用 docker 标准输出即可. 这部分不详细说明, 不清楚可以参考
检索需要预警的消息.
例如希望将系统的异常错误及时提醒出来, 则通过 * and ERROR 先将异常错误信息检索出来.
定义告警
下面的设置为每一分钟请求一次, 只要 content 中包含 error 即触发警告.
钉钉机器人配置
选择要通知的钉钉群, 通过群设置 -> 群机器人 -> 自定义机器人, 设置后获取到 webhook 地址:
将 webhook 地址设置到告警中
在创建告警的通知页面, 输入钉钉的 webhook 地址, 提交后告警即会生效. 日志中发现 error 错误后, 一分钟内会向指定的钉钉群发送如下的告警消息.
通过上述日志调整以及简单的设置, 就可以搭建一套灵活的告警功能, 满足业务部门的需求.
来源: https://yq.aliyun.com/articles/689412