关于运维,新华三的经验谈

发表时间:2018-02-28

过去,企业运维人员总是头疼。

头疼什么?

勤勤恳恳的运维攻城狮,不断面对系统故障,恢复业务常常需要花费数小时,故障原因分析则动辄数天甚至数周……人脑经验判断不及时,决策缺乏事实依据,业务恢复执行手忙脚乱,频繁出错。加班加点已经成为常态!

这背后呢?

业务系统越来越复杂,系统可靠性要求越来越高,用户体验急需大幅提升,IT系统数量大幅增加,只加机器不加人。

总之,攻城狮仿佛在练“七伤拳”,一方面强力支撑了业务蓬勃发展,一方面长期劳顿积累无数内伤。

有办法解决吗?

在2016年,Gartner看到人工智能和机器学习大发展的浪潮,提出使用算法来解决IT运维管理产生的诸多问题,并将其命名为AIOps(AlgorithmicITOperations),国内常常翻译为智能运维。

从字面分析,这是一种基于算法的运维方式,就是通过基于运维大数据的机器学习,用机器智能决策逐步取代人工决策。

运维不再单纯需要人脑以及手工?运维工程师们的福音来了!

对此,Gartner对未来发展表现出了很大程度的乐观,发布相关报告显示,到2020年,会有将近50%的企业在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。

AIOps收到了运维界的积极响应,尽管AIOps还是一个新名词,但它无疑代表了未来的运维发展趋势。

那么,目前企业级的AIOps发展如何?都有哪些落地实践?这种运维理念真的有传说中的那么神奇?带着一系列的问题,小编采访了新华三运维专家,答案将一一揭晓!

新华三集团资深自动化专家江东

记者:如今关于智能运维,也就是AIOps,有这样一种说法,机器学习+自动化运维=智能运维,对于这个表述应该怎么理解?

新华三:AI是赋予运维的新鲜血液,而监控、自动化、服务台依旧是AIOps的三大基石。

新华三已经在监控领域占据了相当大的市场份额,并且在2016年开始发力自动化运维领域,2017年开始将智能化算法逐步产品化,固化到U-Center运维管理产品家族中,但是我们认为现在的智能化在运维上还处在1.0的阶段。

什么是1.0的阶段?

新华三:简单来说就是运维的智能化算法还不够成熟,不能代替人去做运维操作的决策。当前的算法推测的故障准确率还不够高,只能给出故障发生的可能性,如某节点可能百分之八十到九十出现故障,类似天气预报一样。

对于业务连续性要求高的业务系统,业务切换必定会影响到业务进度,盲目切换很可能会带来副作用。当前技术条件下需要人工参与二次确认,防止出错。

但是现阶段的运维智能化还是帮助我们解决了一些问题,例如保证整体业务的连续性。说到连续性这个问题,可以简单分为两个阶段,第一阶段是故障平均探测时长(MTTD);第二阶段是平均故障恢复时长(MTTR)。

机器学习算法能辅助运维攻城狮快速定位故障,大幅降低MTTD;而第二阶段我们推荐采用梳理自动化预案,自动化执行手段来完成。

每一个客户的架构、业务都不相同,而且业务系统变化越来越快,这给AI算法带来了巨大挑战,目前尚无通用运维算法出现。

我们也期待新技术、新算法的出现,在运维领域超越人类判断能力,实现端到端的自动化流程!

记者:虽然AI现在很火爆,运维的AI化经常被提及,但也不能盲目利用AI,您觉得在运维的过程中,哪些方面的问题比较适合用AI来解决?

新华三:确实如此,AI算法往往排除了大量干扰因素,在“理想”情况下做出推断。就像咱们学物理,没有阻力的前提下,物体是永动的一样。

AI算法也有相应的适应的场景。目前比较成熟领域有如下几个:

1.单KPI异常波动探测;

2.多KPI相关性及异常波动探测;

3.告警“噪音”去除,通过机器学习,发现告警之间关联关系,确定关键告警,降低需要“人”关注的告警量;

4.基于自动化发现应用之间、应用与基础设施之间的依赖拓扑,结合相关告警和KPI指标辅助根因判断。

记者:新华三的AIOps平台或者说体系与DevOps做了什么技术关联?也可以说在技术层面上怎么完成DevOps工具链深度集成的?

新华三:新华三U-Center平台与DevOps结合点主要是在自动化层面,U-Center自动化提供资源、监控资源及业务,DevOps消费资源,部署应用。

目前大部分企业CI/CD主要集中在开发测试云,我们有集成的开发测试云整体解决方案帮助客户实现持续集成、持续发布、持续测试、持续优化。

记者:在运维方面,新华三大力推出了一款名叫U-center的智能运维平台,在设计上与其他的智能运维平台有什么区别?

新华三:我们的U-Center运维平台前身是华三成熟的iMC运维管理平台,在新的架构下,做了几点优化升级。

第一,做了容器化改造。随着云计算的发展,监控点与监控频率都会比之前高很多,数据量也会非常大,导致传统技术平台会产生性能上的问题,容器化的改造可以很好解决扩展性问题。

第二,我们增强了自动化组件能力。实现了图形化的自动化编排工具,易于配置,满足丰富的自动化场景。同时支持多种开源自动化组件,如Ansible、SaltStack,让客户有更多的选择权。

第三,增强了内部组件功能和性能,如网络流量分析、业务健康管理、应用性能管理等一系列组件。

最后,优化了图形界面展示,更贴近客户习惯,减少菜单功能层级。

记者:新华三的运维知识库是一个特殊的存在,这是把新华三之前的运维专家与运维经验整合在一起形成的吗?

新华三:这款知识库是华三非常有价值的工具之一。

我们有一本非常厚大开本的网络运维知识手册《根叔的云图》,然而在真正使用过程中会发现查阅、理解还是需要大量时间的,特别是在故障发生时无法快速使用。

为了方便客户使用,我们把《根叔的云图》在内的华三多年运维知识电子化成大量脚本。如果网络上出现一个告警,就会可以触发这个知识库,这个知识库根据云图,自动探测、分析结果,从而给出最佳操作建议。整个过程仿佛医生诊断病人,自动做一系列检查,然后根据检查结果做判断。

通过这个“电子医生”,运维攻城狮可以快速定位问题,并获得解决问题的最佳实践经验。通过此平台,无需专业攻城狮,客户自己就可以解决大部分网络问题。

记者:现在的新华三的U-center平台是1.0版本,未来会有版本的升级吗?

新华三:U-Center是一款快速迭代的产品,通常每季度会发一个版本,每一年会有一个大的版本升级。

记者:技术服务于应用,最近看到咱们新华三有一个智能远程运维的产品,落地到南方报业集团,这个项目目前进展是什么样的,怎样的契机做这个智能远程运维的?

新华三:该产品也是华三独具特色的产品,是为了解决很多企业,无法配置高级IT人才的问题。

我们的解决方案通过一个远程的设备,将这些IT信息收集起来,传到我们后台,由专业软件进行监控,由资深专家负责把脉。该产品已经有包含南方报业在内上千个成功案例,减轻了客户基础运维工作负担

采访间隙,小编除了对现在竞相讨论的AIOps有关问题咨询了专家,还就最近被广泛提及的双态运维模式展开了相关探讨!

记者:新华三如何解读双态运维,双态运维的理念是什么,这种运维模式能够解决什么问题,优势在哪些方面?

新华三:双态运维这个概念是Gartner在2015年提出来的,主要背景是当时传统企业在部分基础设施云化后,带来了一些管理、制度、考核标准、甚至人才培养方面的困难。所以Gartner给出了一个折中方案,传统IT按照稳态管理,云化IT按照敏态管理。

我们认为双态运维没有一定之规,CIO应当从业务价值最大化角度看待这个问题,把握敏态和稳态的比例和尺度。

记者:在双态运维大背景下,企业正在面临着什么样的挑战?

新华三:目前双态运维实际上也有几年了,但并不是“银弹”,只是给了我们一个方向、思路:既不固守传统ITIL流程管控,也不全面倒向极度敏捷。

举个例子,很多传统企业试图像敏捷化发展,但尝试了很多次又后退了,为什么?

一方面,以前固有的传统软件,很难向敏捷化发展,改造的时候困难太大;另外一方面是一些传统研发人员对敏态的排斥心里;从企业角度,还经常出现刚刚培养的敏态人才迅速流失问题。

另外,互联网企业随着业务量做得特别大,也不容有丝毫闪失,也会在敏态中加入一定的流程管控。

记者:新华三能够帮助企业怎么去应对这些挑战,产品方案方面有什么进展?

新华三:我们具备整套的从稳态到敏态的训练和服务,来帮助客户向双态运维,更多是向敏态去转型。但是现实情况往往是运维人员和领导对敏态的程度会有歧义,例如领导想要更敏捷,而运维人员从专业角度上会希望更稳定。我们通过服务来统一思想,实现让各方都满意的方法。

工具上,我们通过自动化的工具,将U-Center和CI/CD在解决方案层面做整合。未来我们会在这个平台上逐步固化最佳实践,实现产品化。

实施双态运维最常见的痛点是自动化,自动化工具无法全覆盖,导致在自动化流程中还需要人工干预,大大降低了效率。新华三正在逐步完善自动化产品,使其能接入各种各样的设备,从传统设备,虚拟化云,容器到应用。

记者:目前我国的双态运维落地情况如何?

新华三:双态运维是大趋势,很多企业逐步向着敏态去转型。不同行业进展有所不同,金融行业转型的比较快,有些行业整体上偏保守一些,这也是不同行业市场格局、内外部压力不同导致的。

现在中大型企业都在做敏态CI/CD的集成,有的做的比较成功,但我认为还处于敏捷的1.0阶段,所谓2.0会涉及到企业文化重塑、人才激励培养、流程简化优化、敏态与稳态交互管控等方面。

思索之后,小编发现,无论是时下与AI紧密相关的智能化运维,还是促进企业运维思路转变的折中方案“双态运维”,都需要企业保持清醒的头脑判断并谨慎选择。盲目跟风不可取,选择适合的才是最重要的。