干运维有前途吗,不想干运维了

最近和一个传统企业的朋友交流企业的数字化转型,总觉得好像做了不少事情,但是看不到什么实质上的收益。特别是运维数字化是越做越迷茫,不知道数字化除了折腾还是有啥其他的好处。

他们领导去阿里腾讯等互联网企业学习回来后,就着手运维数字化转型工作,花大力气梳理了CMDB,使用APM/NPM,普罗米修斯等完善了监控的覆盖,又上了3D可视化系统,展现一些关键的场景,同时研发部门也开发了一套和他们日常业务管理十分密切的IT运营管理系统。为了更好地实现运维数字化,他们重新装修了办公室,按照专业小组设计了办公室的功能小组,每个专业小组的人都坐在一起,并且在可视性最好的位置安装了一块显示屏,可以随时看到本小组的待办事项。

刚刚完成改造的时候,他们也觉得数字化后,数据变得更加直观了,办公室也更具有科技感了,3D可视化大屏上随时显示数据中心的各种运行状态,小组工作大屏上显示了各种待处置的告警语工作任务。只不过这些就是终点了,随着时间的推移,酷炫的3D可视化似乎也没啥看头了,小组工作大屏上的待处理告警也越来越多,不过也没谁去关注了。有一次一个小组的大屏坏了,也没有人报修,一个多星期黑着也没人管,反正有没有这块屏幕,工作不会受什么影响。

最近他们的IT部门换了新领导,这个领导以前是在生产部门管自动化的,来了以后发现核心系统的同城双活都没有建好,一旦系统出问题,企业的核心业务都会受到影响。于是他们这两年又开始重新折腾系统高可用改造了。

在运维领域,我们确实见识过太多类似的事情。为什么我们的传统企业的IT运维会出现这种情况呢?好像这些方法在互联网企业运作的还不错啊,怎么一学过来就变形了呢?这个周末我思考了一些这方面的问题。我突然发现,这些年我服务的很多企业,都在做一些运维数字化的工作,但是似乎都把数字化当成了一项工作。这个工作到底解决了什么问题,带来了什么好处,做成什么样才算做好了,都没有很明确的目标。于是乎围绕这个工作,我们建设了很多的项目,但是这些项目都只是设计成为实现数字化服务的,而并没有围绕实现数字化要解决什么问题去设计。搞数字化的最终目的是为了解决运维工作中的难点和痛点的,因此搞数字化不是目的而只是方法。很多时候,我们把方法当成目的去做,那么就真的会干了一圈,似乎干了个寂寞,什么问题都没有解决。

造成这个现象的原因是多方面的,比如缺乏真正的数字化转型的动力,运维数字化往往只会变成缩减运维费用的借口或者建设信息化项目的理由,而没有人真正的关注这项工作的本质。另外一方面,我们没有什么合理的评估体系来确定这项工作的成果是否满足了预期的目标。不过其最为根本的原因并不是这些,而是与互联网企业相比,传统企业与互联网企业的运维数字化工作的需求来自于不同的两端。

互联网企业的运维数字化工作的需求来自于运维工作本身,是为了更好地做好运维,发现问题,提高SLA,因此其主要目的是为了解决实际问题的,完成某个专项工作后,其目的自然就实现了。传统企业不同,数字化运维的需求往往来自于领导层,他们觉得企业需要实施运维数字化改造,于是他们设计了运维数字化改造的路线与方案。这些设计往往脱离了实际运维生产的需求,更多地考虑了管理特性。于是数字化转型的主要目标最终都变成了考核KPI。

因此运维数字化工作围绕的重点就不是解决运维工作中最需要解决的问题,而是首先制定一系列的KPI,然后围绕这些KPI的采集、评估、分析,然后提出提升目标,开展起了一系列的工作。这种工作模式虽然在建设过程中也能够发现与解决企业中的一些问题,不过总体上来说,更多的是完成一些工程项目而已,其最终的结果是多了一堆KPI,而真正解决实际生产问题的工作做的很少。这种模式造成的最大的后果就是运维数字化工作越深入,要的数据就越多,要考核的KPI就越严格,一线运维就越苦不堪言。

这些年在运维自动化领域,我们已经犯了够多的类似的错误了。为了提高系统的可用性,我们上了RAC集群,做了同城双活,异地灾备。不过上了这些项目,除了花了不少钱,费了不少功夫外,似乎运维部门并没有太大的收益。数据库从单机升级到HA再到RAC,宕掉一个节点不会影响业务了,运维人员只需要事后把问题分析清楚,确保以后不再出现类似问题就可以了。实际上此类故障还是会影响部门的考核,遇到此类问题,运维人员哪怕半夜从被窝里爬起来,然后打车几十公里,也必须立即到现场处置,此外本月的部门绩效恐怕也要大受影响。

前些年我帮一个企业做健康管理,希望通过数字化对系统进行深度监控与分析,从而帮助他们真正实现常态化优化。客户的第一反应是千万别这么做,现在只要系统不宕机,上面还不会考核我们。如果你们这个健康度评估的算法搞成了,上面按照健康分的上升和下降来考核我们,那么我们还有活路吗?

企业的运维数字化改造只是为了企业的运维转型,实现真正的自动化、智能化,从而降本增效的工作目标的实现而采取的一个工作方法,并不是企业IT运维工作提升的最终目的。而正是因为工作任务是自上而下下发的,并不是一线最迫切的真实需求,从而导致在实施过程中往往与实际生产需要脱节,目标与方法的本末倒置,是其中的关键。

要想真正做好IT运维数字化转型,从一线生产工作入手,找到当前运维工作的痛点并投资改造。首先完善数字化所需要的各类基础监控数据、配置信息、日志、跟踪等的采集工作,并完成对这些基础数据的关联性分析,构建智能化模型,让这些数据能够比较准确反映出系统运行的现状。然后再采取各种智能化算法对其建模,自动发现风险,再通过良好的可视化工具将其用最直观的方式展现出来,再融合到企业的IT运维管理平台中去,同时开发大量的自动化工具,让一些一线运维中可以规范化的比较麻烦的事情能够自动化完成或者一键完成。我想这样一步步做下来,把资金投入到真正需要的地方,数字化转型的效果就会一点点体现出来的。

创业项目群,学习操作 18个小项目,添加 微信:923199819  备注:小项目

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 zoodoho@qq.com举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.zodoho.com/63364.html