北京志远天辰科技有限公司-旗下
首页 » 新闻快递 » 数字化转型案例集:考拉海购:431天全面上云之路

数字化转型案例集:考拉海购:431天全面上云之路

作者:钉钉硬件分类: 新闻快递 时间:2021-12-16 13:54浏览:451次

 

编者按:

431天,考拉换树,迁移上云。

借由阿里云的资源弹性能力和在运维方面的自动化技术,考拉海购每年节省成本近2000万元。

继去年核心系统上云后,阿里巴巴进一步云原生化,这些核心技术也正通过阿里云向全社会开放。

导语:

今年双11,是考拉海购加入“阿里动物园”的第二年,加入阿里431天,考拉交出了一张漂亮的成绩单:会员规模增长104%,刷新过往双11纪录。

 增长来之不易——20199月,考拉被阿里正式收购后,经历了一场“脱胎换骨”:数据库应用架构重新设计、百万级节点的容器集群大规模迁移、数据中心从杭州机房迁移到上千公里之外的张北、从基础组件到中间件全面拥抱云原生……仅仅一年的时间,考拉悄无声息完成了一场数字基础设施的彻底换血。

如今,全站业务全部平稳过渡到阿里云后,考拉已栖息在一棵长在“云端”的参天大树上。

数据迁移——与时间赛跑

阿里收购史上,考拉体量不算最大,情况却很特殊。 阿里仅收购了考拉的业务,不包括原本支撑考拉的数字软硬件设施,物理机房、云端数据库等均不在其中。

根据阿里预定的计划,从201996日到2020331日,为“考拉入园”后的半年整合期,考拉需要完成所有数据迁移,且业务不停服,一年之内,考拉需要完成云原生的战略升级。

2019929日,阿里为考拉举办了入园仪式 

考拉数据迁移的目的地远在河北省的张北数据中心,按照惯例,大规模数据迁移,都需要拉一根实体的网络专线传输数据,如果从杭州铺设专线到河北,施工成本以千万计,关键工程量还特别浩大,根本无法在半年里完成。

阿里工程师想到了一个好办法——过渡时期,可以先将阿里云杭州数据中心做接入口,然后在云上做内部链路,云端跳转之后,考拉只需从网易机房铺设一条通到阿里云杭州数据中心的专线,就可以把数据迁移去张北。最后只拉了 5 公里专线光纤,工期一周,还把原本几千万的成本压缩到了几千元。

张北数据中心机房

数据迁移要求打通阿里与网易的内网,可是两家公司的防火墙都很结实,根本无法同时访问两家的内网账号。阿里云为此孵化了一个新产品——为考拉量身定制了独立的虚拟私有云(VPC),既可以让两家公司的网络流畅互通,又能确保数据安全。

迁移内测——云上协同共渡难关

今年1月底,考拉进入了紧张的数据迁移内测环节。数据迁移一旦正式启动,顺利的话只需三四个小时,但要确保过程万无一失,前期需要花几个月测试和演练,从虚拟流量到真实流量,确保规避所有问题,才能正式启动。

疫情期间,考拉海购团队紧急进行内测。把各个环节、所有的测试链路分批全部进行了测试,保证了整个链路的完整性。测试完毕的那个夜晚让所有工程师提心吊胆,必须保证没有灰度,才能做切换。

31日,数据迁移大功告成。全站切换至阿里云后,考拉立刻进入验证阶段,一有问题,工程师们迅速跟进解决,1日当天,成功闭环98%以上的问题。

经过连续几天的压测和紧急扩容,3.8女神节当天,考拉的流量峰值,较2019年双12增长了72%,而运行在云上的考拉如磐石般稳稳地扛住了流量峰值,而且成本比之前大幅度降低。考拉各业务线也在当天被证明已100%打通,形成闭环。

“开箱即用”——考拉上云之路

331日,考拉如期从网易机房下线,圆满完成第一阶段目标后,考拉开始了全面的云原生之路。

过去,每到大促前夕,考拉都要提前几个月临时购买服务器扩容。如今,借助阿里云的弹性计算,考拉可实现单日内的弹性收缩。

在阿里云原生产品天然多AZ容灾能力下,考拉在一个月内就完成了“同城双活”的能力建设,具备了多AZ 容灾能力。在同个城市部署两个数据中心的好处在于,可以在一个数据中心发生故障或灾难的情况下,实现用户的“故障无感知”。

3.8女神节后,考拉用户量大增,运维工作量巨大。一直以来,考拉使用自建的ZooKeeper(分布式协调服务),一旦负载增大,某台服务器宕机后,就会自动选举新的服务器,这个过程中无法对外提供服务。

阿里云有一套MSE(微服务引擎),相当一个全托管平台,借由阿里云的资源弹性能力和自动化运维技术,预计为考拉每年节省成本近2000万元,同时计算性能提升20%。考拉也不再设立专门的运维团队。

“开箱即用”的云上产品,更像是一种共享经济,而且阿里云这些云产品经过历年双11的打磨,解决过业界最难的问题场景和复杂度。

“考拉换树”——全面拥抱云原生

20199月到2020331日,归功于阿里云的成熟产品,“考拉迁云”顺利完成,但到了“考拉换树”全面拥抱云原生时,阿里云一些“半定制”产品,却带来了一些新的挑战。

在阿里云的PaaS层系统中,有一个名为ARMS(业务实时监控服务)的中间件,可以通过实时监控系统运行指标,评估系统健康状态。

AMRS最大的优点是改造成本低,一行代码就能接入,原本的多数业务也不需要修改。但是ARMS也是个“考拉定制版”的产品,支持全链路压测,上万级节点体量的考拉,是第一个吃螃蟹的“自己人”。

恰逢考拉“55大促”临近,考拉将100多个应用上线ARMS,没想到却发生意外,顾客购物时偶发无法下单,反复出现“请重试”的提示。“99大促”压测,小问题聚集爆发。

双方制定了作战方案,例如从灰度环境再到线上环境,分多个批次上线等等。5个月,双方共同解决了200多个问题,ARMS迭代升级50多个版本,终于走到了“老夫老妻”的状态。528日,考拉海购全面上云,10月,考拉在ARMS上的业务一切稳定,“边开飞机边造引擎”的日子终于告一段落。

11 大考

1021日,天猫双11正式开启,考拉也走进了李佳琦直播间,1秒卖出10万张考拉黑卡。这也是考拉换树后,第一次以会员电商的身份,参与阿里最大的项目。

今年双11,云原生帮考拉减少了250台服务器,节约成本约100/月,沉淀出一套落地实践方案。

考拉在云上的研发效率也大幅提升,例如使用阿里云直播中心服务,考拉快速完成了海外直播服务从01的搭建。此外,“爬树 TV”、“Like 社区”等新功能也相继上线。

今年双11,阿里巴巴CTO程立表示,继去年核心系统上云后,阿里巴巴进一步云原生化,将每万笔峰值交易的IT成本降低了80%,这些核心技术也正通过阿里云向全社会开放。

原创:天下网商

编辑:阿里云研究中心 张楠