2025 年,是双十一的第 17 个年头。
从外部看,这依旧是一场年度消费盛典;对阿里工程师而言,它不只是购物节,更是一次全链路的年度考试。
10 月,双 11 刚拉开序幕,阿里就为这次大促定下了新的基调:“这是第一个淘宝闪购全面参与的双十一,也是第一个 AI 全面落地的双十一。”这一句定调,也标志着阿里底层技术体系已经从“全面上云”迈向了“全面 AI 化”的阶段。
1 变量之一:闪购合并,两大 App 打通
今年双十一的最大变量之一,来自闪购业务的合并。
这是淘宝历史上第一次将“闪购”与主站彻底融合——原本独立的“淘宝闪购”App 与主淘宝端完成打通:即买即达、即时零售,外卖、奶茶、住宿、机票、服饰等商品都统一出现在淘宝的同一入口里。
在这次整合中,包括详情页,以及商品库存系统,都在淘宝 App 上再重新做一遍,完成原生化整合,这对底层技术栈带来了新的挑战。
新的“闪购”以分钟级交付著称,对网络容量、链路调度、数据库一致性天然要求更严。当它首次融入淘宝主站,与飞猪、菜鸟等业务在同一架构上协同,整个系统的规模和复杂度被推到了极限。因此,表面看是业务整合,技术上几乎等同一次“系统重启”:过去各业务架构相对独立、互访有限;合并后,所有服务需在统一网络空间内完成调用与数据交互。
阿里云双 11 基础设施技术负责人吴明见证了历年技术演进:2013 年首次参与双 11 时,团队还在为支付峰值手动扩容;2019 年阿里全面上云,核心交易链路迁入云平台;到 2022 年,淘系支付、物流、交易链路实现 100% 上云,系统稳定性上了新台阶。去年,阿里云启用了超 100 万核弹性算力,同时成本节省超 25%。
“但今年不一样。”吴明说,“这是第一次在全栈 AI 架构下跑完一场双 11。闪购的加入让业务边界被彻底打通,底座也必须被重新定义。”
这种“重新定义”很快在 8 月的一次巡检中具象为危机:虚拟专有网络服务 VPC 容量逼近 200 万上限。
VPC 是云上的虚拟局域网,每个网元对应一台逻辑主机。
当围绕淘宝闪购业务,饿了么、飞猪、菜鸟等业务模块深度融入,节点激增、互访增多,同时,因为闪购的订单量飞速增长,对云基础设施 VPC 内的转发网关(XGW)承载量急剧上升,容量告急。这几乎已经触及业界已知的最大生产级 VPC 规模上限,成为系统中的瓶颈。吴明形容:“就像春节高速公路突然多了几万辆车,所有数据流都要从一个口子过,随时可能拥塞。”
一开始大家觉得这个问题还是比较棘手。
吴明补充说:“算力的问题都好解决,某种程度上来说就是加机器就行。但网络是毛细血管,所有算力的通信、互访、调用都要经过它。一旦它不通,整个系统都会‘堵车’。”
按常规做法,这种问题应通过“VPC 拆分”解决——将淘宝、高德、阿里国际等业务迁入各自独立的 VPC,降低单 VPC 压力。但距离双十一仅剩两个月,业务快速推进的情况下做这种大的调整不太现实,太晚了。
组建攻坚小组后,团队迅速把命题从“要不要拆”转为“在不拆的前提下如何扩容”。最终从软件角度,提出了“云网关级联方案”:在不影响现有业务的前提下,基于软硬协同技术,通过在网关层扩展多级流表、打通超大 VPC 的逻辑互联,使网络容量实现横向扩张。
结果是在双十一前成功缓解了“撞墙”风险:整体容量提升约 30%,顺利越过 200 万阈值,完成了对生产级 VPC 规模上限的再定义。