当前位置：

首页
/
IT
/
开源 AIOps 数据中台搭建

开源 AIOps 数据中台搭建

精简版

云栖社区>阿里云存储服务> 博客>正文

成喆 2019-12-31 00:34:51 浏览 24

大数据

算法

监控

性能

日志

日志服务

工单

Image

devOps

数据采集

ELK
grafana
prometheus
aiops
TICK

展开阅读全文

本文介绍我在 PyCon2019 上海站的议题内容, 结尾有 PPT 下载链接.

根据 Gartner 的报告, AIOps 将在未来 5-10 年落地开花, 并集中统一各种 Ops 平台 (Dev,IT.NET,Sec), 本议题介绍 AIOps 的核心作用, 相关工程难点(数据采集, 数据中台, 智能算法, 自动化等) 与开源方案选择, 适当介绍了 Python 在其中的主要作用, 覆盖开源方案有: Kafka,Elastic Stack (Beats, Elasticsearch,Kibana),K8S,Prometheus,Grafana,Thanos, Tick stack (Telegraf,InfluxDB,Chronograf,Kapacitor),Ansible,OpenTelemetry,Skywalking,Druid,Clickhouse 等.

一. 关于 AIOps

IT 运维目标

AIOps 并不是蹭热点, 而是以实实在在解决 IT 运维的痛点或提高效率为目标. 一直以来 IT 运维存在以下 3 个核心指标 / 目的:

1. MTTR 的降低

MTTR(Mean Time To Repair)平均修复时间, 是一个衡量系统宕机时间的指标, IT 运维人员以降低此目标为第一要务, 越低越好.

2. Cost 的降低

公司每年需要在 IT 上投入很多钱, 包括硬件, 软件, 服务, 人员等, 通过 IT 运维希望将资源效率提高到最高, 形成持续的成本优化. 另一方面, 宕机也会带来业务损失(例如电商一时不能用, 客户就无法下单), 因此此指标也与 MTTR 和 SL 相关, MTTR 越长, SL 越低, 成本也越高.

3. Service Level 的提高

SLA 表示客户与服务商之间服务可用性的承诺, 一般以服务可用性用时长为维度, 例如 99.99% 可用, 表示一个周期 (例如一个月) 宕机的总体时间不超过 0.01% * 365 天 < 4.5 分钟. 有时也表示 API 错误率占比.

IT 运维挑战

但是 IT 运维所面临的挑战也呈现越来越高的趋势, 大概分成两类原因:

1. IT 系统复杂度越来越

目标系统越来越复杂, 快速定位问题难度越来越高, 具体细分为: 架构演变复杂化和数据孤岛越来越多.

架构演变复杂化

随着云计算的普及, 许多公司存在云上, 云下业务, 甚至多云策略(海外业务用 AWS, 亚太用阿里云);SaaS 的普及(这点在海外非常普遍), 容器化与微服务架构的流行, 使得一套系统的部署非常复杂. 某一个环节出错, 可能落点也都有可能.

数据孤岛越来越多

各种数据存储于各个系统之中, 在大数据下呈现 4V 特点(容量 Volume, 速度 Velocity, 种类 Variety 和价值 Value), 很难集中采集与处理, 一旦发生问题, 很难有效检查具体数据信息.

2. IT 系统成本越来越

祸不单行, 修复的 IT 问题的成本也越来越高, 具体细分为三类原因:

业务中断成本

信息化越来越发达的今天, 一些流行产品动辄上亿 PV, 千万 UV. 例如一些电商, 服务系统, 一旦临时不可用, 造成的损失就是客户无法下单, 转投竞品处购买, 设想一下, 双十一当天每秒的交易额可知成本之高, 对于金融, 公共服务类的系统, 则会造成更大的损失也有可能, 基本都会成为新闻报道.

缺少持续改进

另一方面, 普遍存在的现象是运维人员的日常工作大部分时间都在忙于救, 自然缺少持续改进的时间和机会, 包括工程流程上梳理漏洞, 编写引入自动化工具, 客户培训等

学习速度跟不上

这里特别强调这点, 是因为其实人始终是一个非常重要的原因, 业务增长的速度往往超乎人的想象(参考风口论), 某个业务在一年内提高 5 倍, 10 倍甚至 100 倍都是有可能的, 但人的学习成长速度往往很难匹配上.

AIOps 基本概念

虽然 Ops 的概念很宽泛, 但一般 AIOps 表示 Artificial Intelligence for IT Operations, 可以理解为组合了大数据, 机器学习, 分析来帮助 IT 运维实现其目标(例如发现, 预测, 修复问题).

而 Gartner 报告中的一张图可以更具体的解释 AIOps 对 IT 运维的改进:

通过历史, 实时流式数据的导入, 结合大数据 + 机器学习在 IT 运维的三个方面 (检测, 管理, 自动化) 中的 4 类场景 (历史分析, 异常检测, 性能分析, 关联与上下文等) 进行增强.

1. 大数据促进平台融合

可以看到 AIOps 平台要求采集各种数据(包括日志, 指标, 网络数据, API, 文本, 社会媒体信息等), 用于分析, 训练 API, 关联分析等以达到效果.

如前述 IT 运维挑战所说, 完整, 实时地采集以上数据是很不容易, 且这类数据又被各种角色的人所关心, 包括不限于:

IT 运维人员

开发人员

数据工程师

安全运维人员

合规审计人员

商务分析师

与本文相关文章

暂无,快来抢沙发吧！