随着大数据, 人工智能, 云计算技术的日渐成熟和飞速发展, 传统的运维技术和解决方案已经不能满足需求, 智能运维已成为运维的热点领域. 同时, 为了满足大流量, 用户高质量体验和用户分布地域广的互联网应用场景, 大型分布式系统的部署方式也成为了高效运维的必然之选. 如何提升运维的能力和效率, 是保障业务高可用所面临的最大挑战.
6 月 23 日, 由百度开发者中心, 百度云智学院主办, 极客邦科技承办的第 79 期百度技术沙龙邀请了来自百度智能云主任架构师王栋, 百度智能云架构师哈晶晶, 百度智能云资深运维架构师杨涛, 百度智能云架构师章淼, 百度智能云架构师余杰及百度智能云资深工程师廖洪流六位讲师, 分享百度在 AIOps,DevOps 上的实战经验, 并以百度统一前端接入 (Baidu Front End, BFE), 数据库以及 Redis 三个具体系统为例, 介绍百度在系统架构设计和变更, 监控, 故障处理和性能管理等贯穿线上系统生命周期的运维层面上, 如何保证系统的高可用.
高可用性系统的架构与运维实践
百度智能云主任架构师王栋做了开场演讲. 他首先介绍了百度运维发展的历史, 主要分为三个阶段: 一, 基础运维阶段. 提供机器管理, 服务管理和权限管理, 保证线上基本服务运行, 并对线上基本数据管理进行监控. 二, 开放运维时代. 以开放 API 的形式, 把第一阶段业务层面的运维交给各个业务部门. 但是面临着垂直场景重复制造轮子, 所积累运维知识和数据难以汇聚的问题. 三, 智能运维阶段. 构建统一的运维知识库, 一致的运维工具开发框架以及全局可见的算法复用平台.
来源: http://www.infoq.com/cn/articles/Baidu-AIOps-Redis