电商IT系统如何从容度过双十一?

cloudinsight
前端性能监控
产品

#1

双十一的规模越来越大,618也渐成气候,面对越来越频繁的巨量用户访问,你如何应对?
3秒的延迟就能让你的用户直接离开转去竞争对手的网店,你如何应对?
移动端的流量比重越来越大,性能越来越差,你如何应对?
IT运维的预算一减再减,你如何应对?

我们先来看一下电商IT为双十一会做哪些准备:
1. 增加服务器和带宽
2. 优化数据库
3. 优化系统架构,支撑更多的用户访问

那问题就来了,应该增加多少服务器资源?应该如何优化数据库和系统呢?我们总不能拍着脑袋随便动生产环境吧?这个时候,就需要一个帮助电商实现从容量预测到持续监控的一整套解决方案

OneAPM为运维团队提供的解决方案:
主动式不间断用户体验模拟监控(应用可用性监控) --> 真实用户体验监控(性能监控) --> 慢操作代码级诊断(性能问题诊断)--> 告警事件的管理和通知(告警必达) --> 应用级安全防护


主动模拟业务监控 -- 保障业务正常运行

首先用主动监控工具(CT)模拟关键业务场景,在双11前就开始7*24监控,每隔5分钟对关键业务操作进行模拟,主要包括主页,活动页,热销产品展示页,用户登录,加入购物车,结算,下单,付款等关键操作。确保这些核心业务能够正常工作,一旦任何一个业务操作出现不可用的情况,会立刻收到来自于OneAlert的短信,微信和电话报警。另外一旦出现DNS劫持,DDOS攻击,CT这个工具也能在第一时间探测到,并且触发告警,通知安全部门。


真实用户体验监控 -- 了解真实用户性能体验

可用性监控好以后,就需要了解用户的真实体验了,以此来了解各地用户访问网站的性能,排查浏览器端的各种错误,让用户不会因为加载脚本失败,错失秒包良机。另外运维人员可以根据真实用户的访问数据,动态调整云上应用的资源,让每一分钱都用在刀刃上~


代码级深入诊断 -- 给开发人员的福利

对于开发人员或者运维二线人员来说,仅仅发现问题是不够的,在双十一这种秒秒必争的时候,需要一个工具能够帮助运维人员快速找到Root Cause,这个时候,安装在应用服务器上的AI就能大显身手了。它能获取应用程序调用各种方法的执行时间,找最耗时的方法,结合DB exception,让运维人员迅速定位到哪句代码设计不合理,需要优化,让性能问题可以在极短的时间内得到解决。


应用级安全防护 -- 保障用户安全

在如今这个竞争激烈到没有办法愉快的玩耍的时代,需要时刻防范来自竞争对手的各种形式的攻击。尤其双十一这种购物狂欢季,网站的性能缓慢可能就会让消费者直接转去竞争对手平台采购了,所以谁都没法保证自己的网站一定不会被攻击。这个时候就需要一款应用级的安全防护工具OneRASP,帮助拦截来自应用层的攻击。比如排名最高的SQL注入等都能做到完全防护。


OneAlert集中告警平台 -- 告警必达

对于监控工程师来说,最担心的事情是什么? 不是用户流失,不是改不完的需求,也不是出现故障。而是出现故障以后,没有将故障及时通知到相关的负责人。这对监控工程师来说,是最最重要的KPI,只要及时将报警通知运维人员,他们就可以松一口气了。OneAlert就是扮演了称职监控工程师的角色,这个云端的集中告警平台可以集成多种监控工具的报警,比如可以将Zabbix产生的事件集成起来,自动将告警通过短信、微信甚至电话的方式,通知给相关负责人,如果在规定的时间内事件没有被响应,就会触发报警升级机制,打电话,发微信给级别更高的人,直至告警被响应,能做到告警必达!


有了上面这些IT运维利器,作为电商企业IT系统的运维人员,你们是不是可以放下悬着的心,好好的在双十一为女朋友的购物车买单了呢?


#2

no 图 no 真像


#3

这个论坛发图还挺方便的 :relaxed: