简述
各位小伙伴,近期技术文感觉发的有点多,不知是否给大家在工作中解决实际问题带来了一些灵感。为什么这么说呢?因为正是文章中涉及的细小知识点积少成多,让我从零碎繁忙的运维工作中得到了一定程度的解放。相信认真读过的小伙伴,一定会觉得工作中并非只有什么高大上的技术才能解决痛点,恰恰相反,正是那些我们平时忽视的细节才是问题的要害。那么只有切中要害,我们才能对症下药。
因此接下来一段时间,我可能会陆续分享运维过程中对一些问题的思考,希望给大家带来一定的启发。
本次分享的是运维管理与运维自动化的思考。
一、运维的工作有哪些?
二、运维现状
从“二八定律”来看,以上运维工作有80%可以通过繁琐的手动处理进行处理,有20%需要根据不同因素来进行特定处理。
而80%的工作我们可以借助自动化进行处理,而剩下的20%可以借助监控的多维监控,对问题进行收集、分析进一步判断处理。
三、运维管理
从运维现状来看,我们优先需要解决的是自动化的问题,而自动化的前提是标准化/规范化,而好的自动化需要配合可视化或web化,可以将我们80%或更多的工作进行优化。
因此目前我们总结的运维管理主要目标是标准化/规范化,自动化,可视化/web化。
其中标准化可根据运维实际情况进行制定;而可视化/web化,可以通过开源工具或web开发实现。
四、运维自动化
运维自动化可以实现的几个主要方面:
1.服务器上架自动化
新服务器或虚拟机从创建到交付到不同环境,需要进行一系列的定制,如cpu、内存、磁盘、ip地址、内核参数优化、时间同步、ssh加固、防火墙、各种客户端安装;当然这还不够,若运维平台集成了cmdb、跳板机、zabbix等,服务器上架还需要注册到cmdb及跳板机、zabbix等管理工具;如还有其他工具也需要进行集成。
总之服务器上架自动化的最终目标是环境优化、安全可用、注册到一切管理工具。
2.环境定义自动化
对于环境定义的自动化比较适用于第二种情况,需要对需求部门快速创建资源。
总之环境定义自动化的主要原则无论是哪种情况,都要进行不同程度的隔离,减少环境连错导致的问题。排查环境问题是运维比较恶心的一个问题。
3.部署自动化
部署自动化的过程是不断进化的,大体分为:脚本>批量ssh>自动化工具>容器,从每个过程来看部署自动化已经有批量操作>可用性>易用性>效率不断转变。部署自动化现在解决的不仅仅是部署本身了,还包括怎么才能更快,更容易屏蔽底层的不同。
注意:此处联想到《DevOps》思维导图中关于自动化中的提高速度,即自动化初步完成,还需要进行速度方面的优化。
另部署自动化完成后,需要和监控进行联动,即系统的可用性监控、性能监控等需要自动添加到监控系统。
4.监控自动化
当然监控自动化不仅仅只针对监控,还要兼顾到故障恢复的自动化,即故障自愈。
5.版本发布自动化
五、运维自动化的几个阶段
站得高,看得远。无论我们正在做哪个方面的自动化,从更高的层次了解运维自动化的各个阶段,对我们更有益处:
1.操作自动化
这个层次的特征是把一系列的手工执行的操作,用脚本或工具串联,在一定程度上解决了运维手动执行的问题。但是不同的场景需要不断调整脚本或工具,反而增大了出错概率。
2.场景自动化
3.智能化
六、怎样做运维自动化
1.先解决痛点
2.选择正确的阶段
七、总结
1.运维自动化
在以上自动化过程中,在不同的自动化阶段需要对接不同的第三方系统,因此可以看出一条统一的ESB(企业系统总线)来实现对系统的接口对接是多么重要。但是也并不是没有ESB就不好,不同阶段解决的痛点不一样,只有适合业务发展的阶段的运维自动化才是最好的。
2.运维管理
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/209718.html原文链接:https://javaforall.net
