过去,企业运维人员总是头疼.
头疼什么?
勤勤恳恳的运维攻城狮,不断面对系统故障,恢复业务常常需要花费数小时,故障原因分析则动辄数天甚至数周...... 人脑经验判断不及时,决策缺乏事实依据,业务恢复执行手忙脚乱,频繁出错.加班加点已经成为常态!
这背后呢?
业务系统越来越复杂,系统可靠性要求越来越高,用户体验急需大幅提升,IT 系统数量大幅增加,只加机器不加人.
总之,攻城狮仿佛在练 "七伤拳",一方面强力支撑了业务蓬勃发展,一方面长期劳顿积累无数内伤.
有办法解决吗?
在 2016 年,Gartner 看到人工智能和机器学习大发展的浪潮,提出使用算法来解决 IT 运维管理产生的诸多问题,并将其命名为 AIOps(AlgorithmicITOperations),国内常常翻译为智能运维.
从字面分析,这是一种基于算法的运维方式,就是通过基于运维大数据的机器学习,用机器智能决策逐步取代人工决策.
运维不再单纯需要人脑以及手工?运维工程师们的福音来了!
对此,Gartner 对未来发展表现出了很大程度的乐观,发布相关报告显示,到 2020 年,会有将近 50% 的企业在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%.
AIOps 收到了运维界的积极响应,尽管 AIOps 还是一个新名词,但它无疑代表了未来的运维发展趋势.
那么,目前企业级的 AIOps 发展如何?都有哪些落地实践?这种运维理念真的有传说中的那么神奇?带着一系列的问题,小编采访了新华三运维专家,答案将一一揭晓!
新华三集团资深自动化专家江东记者:如今关于智能运维,也就是 AIOps,有这样一种说法,机器学习 + 自动化运维 = 智能运维,对于这个表述应该怎么理解?
新华三:AI 是赋予运维的新鲜血液,而监控,自动化,服务台依旧是 AIOps 的三大基石.
新华三已经在监控领域占据了相当大的市场份额,并且在 2016 年开始发力自动化运维领域,2017 年开始将智能化算法逐步产品化,固化到 U-Center 运维管理产品家族中,但是我们认为现在的智能化在运维上还处在 1.0 的阶段.
什么是 1.0 的阶段?
新华三:简单来说就是运维的智能化算法还不够成熟,不能代替人去做运维操作的决策.当前的算法推测的故障准确率还不够高,只能给出故障发生的可能性,如某节点可能百分之八十到九十出现故障,类似天气预报一样.
对于业务连续性要求高的业务系统,业务切换必定会影响到业务进度,盲目切换很可能会带来副作用.当前技术条件下需要人工参与二次确认,防止出错.
但是现阶段的运维智能化还是帮助我们解决了一些问题,例如保证整体业务的连续性.说到连续性这个问题,可以简单分为两个阶段,第一阶段是故障平均探测时长(MTTD);第二阶段是平均故障恢复时长(MTTR).
机器学习算法能辅助运维攻城狮快速定位故障,大幅降低 MTTD;而第二阶段我们推荐采用梳理自动化预案,自动化执行手段来完成.
每一个客户的架构,业务都不相同,而且业务系统变化越来越快,这给 AI 算法带来了巨大挑战,目前尚无通用运维算法出现.
我们也期待新技术,新算法的出现,在运维领域超越人类判断能力,实现端到端的自动化流程!
记者:虽然 AI 现在很火爆,运维的 AI 化经常被提及,但也不能盲目利用 AI,您觉得在运维的过程中,哪些方面的问题比较适合用 AI 来解决?
新华三:确实如此,AI 算法往往排除了大量干扰因素,在 "理想" 情况下做出推断.就像咱们学物理,没有阻力的前提下,物体是永动的一样.
AI 算法也有相应的适应的场景.目前比较成熟领域有如下几个:
1. 单 KPI 异常波动探测;
2. 多 KPI 相关性及异常波动探测;
3. 告警 "噪音" 去除,通过机器学习,发现告警之间关联关系,确定关键告警,降低需要 "人" 关注的告警量;
4. 基于自动化发现应用之间,应用与基础设施之间的依赖拓扑,结合相关告警和 KPI 指标辅助根因判断.
记者:新华三的 AIOps 平台或者说体系与 DevOps 做了什么技术关联?也可以说在技术层面上怎么完成 DevOps 工具链深度集成的?
新华三:新华三 U-Center 平台与 DevOps 结合点主要是在自动化层面,U-Center 自动化提供资源,监控资源及业务,DevOps 消费资源,部署应用.
目前大部分企业 CI/CD 主要集中在开发测试云,我们有集成的开发测试云整体解决方案帮助客户实现持续集成,持续发布,持续测试,持续优化.
记者:在运维方面,新华三大力推出了一款名叫 U-center 的智能运维平台,在设计上与其他的智能运维平台有什么区别?
新华三:我们的 U-Center 运维平台前身是华三成熟的 iMC 运维管理平台,在新的架构下,做了几点优化升级.
第一,做了容器化改造.随着云计算的发展,监控点与监控频率都会比之前高很多,数据量也会非常大,导致传统技术平台会产生性能上的问题,容器化的改造可以很好解决扩展性问题.
第二,我们增强了自动化组件能力.实现了图形化的自动化编排工具,易于配置,满足丰富的自动化场景.同时支持多种开源自动化组件,如 Ansible,SaltStack,让客户有更多的选择权.
第三,增强了内部组件功能和性能,如网络流量分析,业务健康管理,应用性能管理等一系列组件.
最后,优化了图形界面展示,更贴近客户习惯,减少菜单功能层级.
记者:新华三的运维知识库是一个特殊的存在,这是把新华三之前的运维专家与运维经验整合在一起形成的吗?
新华三:这款知识库是华三非常有价值的工具之一.
我们有一本非常厚大开本的网络运维知识手册《根叔的云图》,然而在真正使用过程中会发现查阅,理解还是需要大量时间的,特别是在故障发生时无法快速使用.
为了方便客户使用,我们把《根叔的云图》在内的华三多年运维知识电子化成大量脚本.如果网络上出现一个告警,就会可以触发这个知识库,这个知识库根据云图,自动探测,分析结果,从而给出最佳操作建议.整个过程仿佛医生诊断病人,自动做一系列检查,然后根据检查结果做判断.
通过这个 "电子医生",运维攻城狮可以快速定位问题,并获得解决问题的最佳实践经验.通过此平台,无需专业攻城狮,客户自己就可以解决大部分网络问题.
记者:现在的新华三的 U-center 平台是 1.0 版本,未来会有版本的升级吗?
新华三:U-Center 是一款快速迭代的产品,通常每季度会发一个版本,每一年会有一个大的版本升级.
记者:技术服务于应用,最近看到咱们新华三有一个智能远程运维的产品,落地到南方报业集团,这个项目目前进展是什么样的,怎样的契机做这个智能远程运维的?
新华三:该产品也是华三独具特色的产品,是为了解决很多企业,无法配置高级 IT 人才的问题.
我们的解决方案通过一个远程的设备,将这些 IT 信息收集起来,传到我们后台,由专业软件进行监控,由资深专家负责把脉.该产品已经有包含南方报业在内上千个成功案例,减轻了客户基础运维工作负担
采访间隙,小编除了对现在竞相讨论的 AIOps 有关问题咨询了专家,还就最近被广泛提及的双态运维模式展开了相关探讨!记者:新华三如何解读双态运维,双态运维的理念是什么,这种运维模式能够解决什么问题,优势在哪些方面?
新华三:双态运维这个概念是 Gartner 在 2015 年提出来的,主要背景是当时传统企业在部分基础设施云化后,带来了一些管理,制度,考核标准,甚至人才培养方面的困难.所以 Gartner 给出了一个折中方案,传统 IT 按照稳态管理,云化 IT 按照敏态管理.
我们认为双态运维没有一定之规,CIO 应当从业务价值最大化角度看待这个问题,把握敏态和稳态的比例和尺度.
记者:在双态运维大背景下,企业正在面临着什么样的挑战?
新华三:目前双态运维实际上也有几年了,但并不是 "银弹",只是给了我们一个方向,思路:既不固守传统 ITIL 流程管控,也不全面倒向极度敏捷.
举个例子,很多传统企业试图像敏捷化发展,但尝试了很多次又后退了,为什么?
一方面,以前固有的传统软件,很难向敏捷化发展,改造的时候困难太大;另外一方面是一些传统研发人员对敏态的排斥心里;从企业角度,还经常出现刚刚培养的敏态人才迅速流失问题.
另外,互联网企业随着业务量做得特别大,也不容有丝毫闪失,也会在敏态中加入一定的流程管控.
记者:新华三能够帮助企业怎么去应对这些挑战,产品方案方面有什么进展?
新华三:我们具备整套的从稳态到敏态的训练和服务,来帮助客户向双态运维,更多是向敏态去转型.但是现实情况往往是运维人员和领导对敏态的程度会有歧义,例如领导想要更敏捷,而运维人员从专业角度上会希望更稳定.我们通过服务来统一思想,实现让各方都满意的方法.
工具上,我们通过自动化的工具,将 U-Center 和 CI/CD 在解决方案层面做整合.未来我们会在这个平台上逐步固化最佳实践,实现产品化.
实施双态运维最常见的痛点是自动化,自动化工具无法全覆盖,导致在自动化流程中还需要人工干预,大大降低了效率.新华三正在逐步完善自动化产品,使其能接入各种各样的设备,从传统设备,虚拟化云,容器到应用.
记者:目前我国的双态运维落地情况如何?
新华三:双态运维是大趋势,很多企业逐步向着敏态去转型.不同行业进展有所不同,金融行业转型的比较快,有些行业整体上偏保守一些,这也是不同行业市场格局,内外部压力不同导致的.
现在中大型企业都在做敏态 CI/CD 的集成,有的做的比较成功,但我认为还处于敏捷的 1.0 阶段,所谓 2.0 会涉及到企业文化重塑,人才激励培养,流程简化优化,敏态与稳态交互管控等方面.
思索之后,小编发现,无论是时下与 AI 紧密相关的智能化运维,还是促进企业运维思路转变的折中方案 "双态运维",都需要企业保持清醒的头脑判断并谨慎选择.盲目跟风不可取,选择适合的才是最重要的.
来源: http://geek.csdn.net/news/detail/252841