1.4.1 应用架构互联网化阶段

这个阶段的标志性事件是开始自研飞天操作系统、互联网架构的广泛应用和T4容器技术。在飞天操作系统研制之初,OpenStack还没有发布,还没有Apache CloudStack,Eucalyptus也才推出1.6版本,大规模集群问题还远未涉及。当时所面临的一个非常大的技术决策是自研还是基于其他技术扩展,即选择基于Hadoop突破5k,还是纯自研攻坚。王坚博士坚定地选择了后者,并于2013年10月完成了5k项目,单机群规模超过5000台,100 TB数据排序30分钟完成,比当时雅虎公司的世界纪录71分钟缩短了一半以上!实际上,自研为阿里巴巴带来的好处还远不止于此,如果不是基于自研技术,就无法进一步突破10万台的规模,无法与神龙、含光等硬件深度结合,也无法支撑“双11”超过50万的峰值交易。

阿里巴巴也是率先全面研发和应用互联网架构的公司。2009年,以HSF(分布式RPC调用)、metaQ(消息队列)、TDDL(分布式数据库系统)、TAIR(高速K-V缓存)等为代表的中间件产品,构成了阿里巴巴互联网架构的核心技术组件,使得阿里云的电商应用可以支持每天万亿级的调用、峰值QPS千万级、日数据处理量PB级,以及承受上亿用户的流量洪峰。这一代的架构升级,使得阿里巴巴的应用可以轻松应对当时最大的流量洪峰,而其后的单元化改造、异地多活等项目,更是让阿里巴巴的应用在面临各种机房内故障、机房间故障时,能够通过整个业务单元的快速切流来保障整个交易的稳定性。

T4是阿里巴巴在云原生技术底层研发的开始。它是一款于2011年基于LXC(Linux Container)研发的容器产品,主要用于为集团内的应用打包和发布提供技术服务。2015年,T4结合Docker社区的镜像等技术,演变为Pouch,并于2017年捐献给Apache基金会。Pouch的特点是资源占用少、P2P分发、富容器、隔离性好、可移植性高等,非常适用于提升应用的资源使用率。容器帮助阿里巴巴的应用提升了交付效率,同时也让运维更加方便,但是在阿里巴巴集团这么大的规模下,每个容器集群独占物理资源的模式,开始让大家思考和探索如何进一步提升资源的利用率,由此,阿里巴巴的云原生实践逐步进入第二阶段。