中国领先的IT技术网站
|
|

听云双十一重保服务 为应用性能带来实时监控保护

双十一对于电商之重,重如泰山。听云在APM领域的经验告诉我们,只有提前现网压测,当天实时监控,才能切实为用户企业保驾护航。

作者:刘妮娜来源:51CTO|2017-11-08 13:02

Tech Neo技术沙龙 | 11月25号,九州云/ZStack与您一起探讨云时代网络边界管理实践


【51CTO.com原创稿件】 临近双十一,所有的电商网站都在紧锣密鼓的筹备和宣传,对于双十一当天自家网络承载能力的预估,也成了电商公司技术部门最为棘手的问题。日前,拥有11年应用性能管理经验的APM厂商-听云在公司总部召开媒体沟通会,与来访的媒体代表深入交流了双十一期间,听云推出的重保服务方案。51CTO有幸到场聆听了听云技术支持总监谷岳静女士的讲解和演示,了解到双十一当天,确保网络系统顺畅运行的"秘密"。

双十一电商面临的挑战

谷岳静向媒体表示,双十一电商网站面临的挑战非常大,每一家电商在双十一都会面临非常大的流量峰值,在这一天的流量峰值我们是想象不到的,要提前预估在那天有多少的流量,提前做多少带宽的冗余,多少服务器的冗余来保障双十一的需求。

另一个挑战是最近几年,基本上用户都会转到移动端上面来,比如京东,有60%~70%的用户在移动端上,聚美几乎有90%的用户都是移动端。所以说最近几年,对这些用户来说,一个很大的挑战是终端设备的复杂以及网络接入方式的复杂。以前就是移动电信联通这些,但是现在就有了3G、4G和各种各样的介入方式,接入方式越多,对于后端技术的不可控程度也就越高。终端设备方面,近年来移动端的发展,仅安卓在全球的独立机型就有五万多种,对于他们来说要了解每一个用户的使用习惯是一个非常大的挑战。

第三点是交易额高,京东双十一或者618当天的销售额可能会相当于他们往常一个月甚至两个月的销售额。另外用户体验对于销售额的影响也是非常大的,比如说网站如果断了一秒,就这一秒就可以造成几百万甚至上千万的损失,所以说就在活动当天,他们对于用户体验的要求是非常高的。

第四点数字化转换营销成功率的压力非常大,临近双十一,我们在地铁、App等等各种媒体渠道上都可以看到非常多的电商网站在打广告,那么这个广告能不能成功的转化对于技术人员的压力也是非常大的一个点。

电商技术部门的四点诉求

"针对于上述的挑战,技术部门也会有一些诉求。"谷岳静告诉大家。

第一个诉求是在大促前进行现网环境的压力测试,一般情况下都是做一些内网环境下的压测,但是内网环境下的测试只是模拟请求。现网环境就是真实用户的测试,通过真实的测试来预估服务器的扩容。

第二个诉求,现在需要一套终端用户时时监控系统,用来监视用户端的,因为技术部门一开始只是针对服务器监控,但是这远远不够。因为有数据指出,在性能问题中有70%的问题来自于用户端,服务器端的问题只占大约30%。比如用户点击App的一个按钮无响应,通常情况下这是无法反映到服务器中去的,现在就需要有一套用户端的监控系统。

第三个诉求:用户需要一套工具,即出现问题时,可以有一套工具来快速告诉我们问题点出现在哪里,并由谁来解决,让这一套工具来很好的界定影响范围。

第四个诉求,说到大促就不得不提CDN,因为在大促的过程中,每一家电商自己机房的带宽肯定是满足不了需求的,一定需要CDN来帮助自己做带宽上的补充。CDN是一个黑盒式的服务,对于用户来说,要想知道用户端的用户体验好不好,就一定要监控到第三方服务商,也就是CDN厂商的每一个节点是不是在正常运作,因为CDN上的每一个节点出问题,都会影响到用户所在地的一个省或者周边省份的访问情况。所以对于技术部门来说,需要一套工具来把CDN的质量透明化,把CDN每一个节点的数据都量化出来,这样哪里有问题就可以快速的找CDN去解决。


听云工作人员在大屏幕上实时监控用户流量情况


听云重保服务为双十一保驾护航

对于每一个电商企业的技术部门来说,双十一当天最大的诉求是:可以没有惊喜,但绝对不能出事。万一有紧急情况发生,就要快速定位问题根源,因为每一分钟的影响都是几百万的损失。另外当发现问题的时候就要精准的定位这个问题是由研发解决、运维来解决或是第三方来解决。这就是防出事并如何快速定位解决问题。

保障方案方面,听云根据诉求,帮助电商企业做到防出事,帮他做快速的定位,当出现问题的时候就要他协调以达到快速解决的目的,最终减少对用户、对品牌的影响。在双十一当天,听云会根据客户的要求,提供技术人员驻场服务。听云会将客户的业务数据实时展现在大屏中,直观的反馈网络的承载情况。


怎么做到防出事,听云首先会给客户提供一套以用户为中心的保障方案,最开始的时候电商企业的监控,都是从数据中心内部出发来监控。可能数据中心内部的安全性能达到很高的分值,但是用户却还在投诉。所以现在越来越多的电商企业开始关注用户端的数据,我们把整个方案分成用户端、网络层和后端。

用户端方面,针对于APP,听云是让客户在APP中集成一条SDK,从而获取所有的真实用户访问体验数据,比如说访问卡顿,点击时转圈或闪退等等,App端的数据我们是通过这种方式采集的。针对于浏览器端,我们是在客户的页面中插入JS,来获取最近一段时间用户访问页面的次数、哪个页面首屏的白屏很长等等,针对于这些数据来进行针对性优化。

网络层方面,听云在全国有30万个真实网民,让这些网民模拟其用户进行访问从而获得拨测访问的性能数据;到了数据中心内部,也就是后端,听云通过在应用服务器上部署探针的方式来获取每一行代码的执行效率,以及其服务器硬件的数据。所以说听云为用户提供了一套以用户为中心的解决方案,将用户的数据按业务维度全部建立起来,当出问题的时候,在这一整套平台中可以实现端到端的溯源,比如前端有个接口很慢,听云可以通过前瞻分析,用上百种指标来供客户详细分析错误原因以及责任界定。

第二个防出事的方法是,听云帮助电商企业做现网环境的压测,做到真实用户的端到端的压测方案。具体怎么实现呢?听云在全国有30万的真实网民,调用这些网民用户来实时的对服务器发起并发访问,在后端上部署探针,从而可以看到当大流量过来的时候其后端代码执行效率的变化,看瓶颈点在哪里,再进行针对性的优化。这里举个例子,比如在网上买东西,流程是打开页面,搜索,到商品页出来很多的商品列表,加入购物车,登录,订单支付…大概是这样的一个流程,听云会针对于这类的业务流程来进行监测,比如一开始的时候先是100个用户访问过来,之后没过5分钟就增加100个用户,随着时间的推移,用户量则会越来越大,从而看出瓶颈点是在哪里。

大促当天,听云要把客户所有关键的业务接口全部监控起来,比如加入购物车按钮、产品分类、搜索、登录等等,将这些全部梳理出来,变被动为主动,按照业务维度进行监控。以前的监控都是从数据中心内部发起的监控,比如我某一个服务器的CPU高了,服务器的磁盘满了,都是这类的维度。但是这些原因用户是感知不到的,用户能感知到的就是点击这个按钮不管用,又或者某个页面打不开了,这才是用户能够理解的语言。所以说我们做的事情,就是按照业务维度进行报警,从而更快的知道错误点在哪,从而变被动为主动。

双十一对于电商之重,重如泰山。听云在APM领域的经验告诉我们,只有提前现网压测,当天实时监控,才能切实为用户企业保驾护航。在双十一的惊人数字背后,无不渗透着电商技术部门和第三方技术部门的良苦心血,让我们共同期待2017双十一的到来,期待着电商网络为我们的生活带来更多的便利和惊喜。就让听云为电商网络的惊喜保驾护航吧!

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【编辑推荐】

  1. 云计算加速企业指数级升级 双11阿里云北京站邀你来坐坐
  2. 应用性能管理工具怎么选?掌握四项基本原则
  3. 我们不一样?有啥不一样——反正双11你还是要注意信息安全
  4. 双11选购攻略 最适合吃鸡的游戏本配置一览
  5. 心塞了!双11程序员彻夜难眠,考验技术的时刻到了
【责任编辑:刘妮娜 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Ubuntu Linux入门到精通

本书全面介绍了Ubuntu Linux的相关知识,内容详实,论述清晰。主要内容包括Ubuntu介绍、文件系统管理、进程管理、压缩与查询系统、Shel...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× CTO训练营(深圳站)