运维 2.0 时代——自动化&服务化


#1

运维 2.0 时代

运维 2.0 是指,从技术运维升级为服务运维,向公司提供可依赖的专业服务。运维 2.0 强调服务交付能力,而不是技术能力,需求可依赖、懂业务、服务化的专业运维。

为什么会有这种转变?伴随着 Web 2.0 风潮,公有云的普及,开源软件的大量涌入,运维的复杂度节节升高,运维技术当然也需要突飞猛进,自动化运维渐露锋芒。就像随着生产力发展,机械替代了手工,运维人员也在某种程度上从技术的创造者变成技术的使用者。

运维 2.0 要求运维人员既拥有技术能力,又拥有业务能力,能够运用快捷、方便的自动化运维工具,同时具有服务的意识和技巧,热情主动的拥抱业务。

为了了解运维 2.0 时代的监控方式,我们不妨从以前的监控手段说起。首先来了解一下 Zabbix ,通过 Zabbix 能够监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。但时代在推进,如今 Zabbix 的功能真的就能满足广大开发者们么?

如果你是阿里云的用户,或者使用过 Zabbix,你将明显感受到一个痛点:没有办法对数据做聚合,只能挨个查看主机的性能指标,更不用说有管理的功能了。

如上图,Zabbix 只提供单台 Host 的 Disk 使用量。如果 3 台主机,同属于一个组 Mi-Kafka,就没法知道这个组总体 Disk 使用量了。

因此,就算线上系统发生了故障,要在短期内知道,到底是哪个模块的哪个部分出了什么样的问题,所需要的经验和时长都是巨大的。

而 OpenTSDB 和 StatsD 的出现改变了现状。

OpenTSDB 是什么呢,一个开源监控系统,可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的 Metrics 同时进行存储、索引以及服务,从而使得这些数据更容易让人理解。

集群监控

不断增长的数据量和处理速度需求,要求很多应用向分布式系统扩展。单一的机器处理能力并不能跟上数据增长的速度,这将影响有价值数据的使用。因此越来越多的组织迫切需要将他们重要的计算能力扩展到成百上千台机器或容器上去。容器技术和虚拟化技术对运维产生了革命性影响,以前的设备都是真实的,位置也是相对固定,管理起来相对直观。而如今这些资源很大一部分都被“池化”,使得一切管理对象变成虚拟的、可灵活迁移的逻辑存在。资源在数据中心中的物理位置的可视性变得困难。

如今越来越多的企业开始使用混合云模式,来建设数据中心。私有云和公有云,以及集群系统,让监控工作变得异常复杂。所以,以下几个方面在运维监控中显得尤为重要:

  • 性能指标的采集的轻量化;
  • 性能指标能够集中在一个平台进行管理和可视化;
  • 能够对性能指标进行灵活的组合和计算。

打个简单的比方,一家广告监控平台购买 AWS 的 50 台 EC2 来进行数据的采集,而数据分析则是本地的 10 台服务器来支持。

如果还在使用传统运维工具 Zabbix,这时候就会遇到一个问题,AWS 控制台可以看到这 50 台的监控指标。也就意味着,运维工程师需要使用 Zabbix 和 AWS 控制台来同时管理监控数据。

同时关注多集群中多个节点的运行情况,以及需要查看不同中间件的指标来发现问题,或者想要通过 Zabbix 集成短信报警渠道,这些让运维工作变得不堪重负。

而在非常早期的时候,淘宝团队就引入了 OpenTSDB 来辅助他们的运维监控。

随后的几年,云计算和 SaaS 的兴起,国外也出现了多种采用 StatsD 和 OpenTSDB 的开源工具搭建的 SaaS 服务:Boundary、CopperEgg、Datadog 等等。

他们都不约而同地采用了同一种产品逻辑,也是 Cloud Insight 的产品逻辑————时间序列数据库的逻辑。

  • 任何的性能指标,都作为时间序列数据被采集和处理;
  • 任何的 Host 等归属于性能指标的属性,都作为指标的标签信息。

而在产品逻辑上,则表现为:

自动化&服务化

基础架构决定运维方向,而运维体系可以使基础架构发挥最大效益。我们可以思考一下,自动化运维其实不仅仅是把操作界面化这么简单,而是在底层的基础架构与上层的业务系统间建立一个联系,使两者之间拥有一个沟通桥梁。在以前运维人员更多的做着繁杂重复的工作,并且无法可视化的表达或与其他部门人员进行充分沟通。

现在这一切即将改变,运维 2.0 时代出现了众多自动化监控工具,这批工具是“可编程”的,你只需要为这批工具写上几行“代码”,它便会帮你自动完成所有的工作。譬如 Cloud Insight,它支持多种操作系统、云主机、数据库和中间件的监控,通过标签,对基础设施进行有效地管理,让您轻松应对复杂的基础设施架构。来帮助所有的 IT 公司,减少在系统监控上的人力和时间成本投入,让运维工作变得更加高效、简单。

视角决定高度,在此基础之上,Cloud Insight 还能够对数据指标进行聚合、分组、过滤、管理、计算;并提供团队协作功能,共同管理数据和报警事件。所以,Cloud Insight 也是一个数据管理平台,帮助企业内部加强沟通和协作,填补部门间、人员间、技能间的沟通鸿沟。

自动化运维平台让运维不再苦逼,随着业务发展和用户体验要求的不断提高,好的自动化运维平台应该能够使技术人员主动发现业务上的需求和缺陷,让运维人员能够将更多时间、精力投入到整个服务架构的整理和设计中,而业务人员也能够更加了解产品的技术现状。

另一方面,除了愈加自动化愈加智能的自动化运维平台的出现,运维 2.0 时代要求运维人员具有服务意识。需要了解到一点:运维的本质是“服务”,而知识技能是服务的工具。

“IT运维服务的价值不仅仅在于帮助客户处理解决问题,而在于服务的主动性、知识的传承,在快速响应的同时,也让客户了解到运维服务真正的价值所在。” 运维人员不是给开发打杂的,而是通过自己的技术能力和业务能力,在持续性的服务工作中增加产品价值,优化用户体验。下一代运维应当致力于帮助企业以商业价值为导向、以用户体验为中心,实现运维转型。


#2

产品挺酷的,自动化了省的写脚本了


#3

自动化&服务化 概念很好 就是不知道可不可靠?


#4

你说的可靠是指哪方面呢?


#5

说的好,赞同,我们也在努力转型:)


#6

:sunglasses:


#7

运维1.0是啥~~~~~:grinning::grinning::grinning::grinning:


#8

就是传统的运维方式,运维与开发是相对分割的,运维方式也不够智能。