飞天洛神云网络再度入选通信顶会 SIGCOMM'24

简介: 飞天洛神云网络再度入选通信顶会 SIGCOMM'24

云布道师


摘要:5 月初,通信领域顶会  SIGCOMM 2024 公布了本届会议的入选论文,阿里云飞天洛神云网络 2 项核心技术 Triton(云虚拟交换机硬件卸载)和Canal  Mesh(多租户服务网格框架)被 SIGCOMM 2024 主会双双录用,阿里云网络的技术再次得到业界专家的一致认可。飞天洛神坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在 SIGCOMM、NSDI、INFOCOM、MobiCom 等国外顶级会议上。自 2020 年以来,阿里云网络在 SIGCOMM/NSDI 两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了 2021 年浙江省技术发明一等奖、2021 年中国计算机学会技术发明一等奖、2023 年中国计算机学会技术发明二等奖以及 2023 年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。

image.png

SIGCOMM  是 ACM  组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足   20%。此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能在  16.9% 的录用率中脱颖而出。


Triton ——阿里云虚拟交换机硬件卸载框架


Triton: A Flexible Hardware Offloading Architecture for Accelerating Apsara vSwitch in Alibaba Cloud


既 P4 硬件网关 Sailfish 之后,云网络团队又一硬件卸载力作。论文首次揭秘阿里云网络虚拟化平台的重要组件 Apsara vSwitch(AVS)及其硬件加速方案,该论文详细展示了阿里云对于云网络虚拟交换机(vSwitch)加速设计的思考与尝试。


背景


AVS是阿里云自研的vSwitch简称,作为网络虚拟化平台Achelous(详见SIGCOMM’23主会论文)的重要组成部分,它基于服务器粒度部署,负责云上计算实例(如虚拟机、裸金属、容器等)的网络连接和管理功能。进入硬件卸载时代,目前已有的  vSwitch 硬件卸载方案大多采用软/硬件转发分离的设计——即将热门流量卸载到加速硬件,而完整的 vSwitch  功能保留在软件上。然而,在对 AVS  的大规模部署和运维中,我们发现这种设计下软、硬件转发两条平行的数据路径在性能和可编程性上存在巨大差距,无法弥合,既有害于用户网络性能 SLA  保障,也带来了迭代和运维负担。因此,Triton 架构应运而生。

image.png


Triton 设计


在 Triton 架构中(如上图所示),我们通过如下设计来平衡 AVS 的性能与灵活性:


  1. 统一软硬转路径,并精细化分配 AVS 数据包处理负载。Triton 的设计原则是先统一数据通路,实现可预期数据包处理性能;然后通过对数据包处理负载建模,把复杂易变的功能保留在软件上,而 I/O 等通用的加速能力由硬件实现。


  1. 为了进一步缓解软件的性能压力,Triton  应用了一系列最前沿的技术提升 AVS 的带宽、PPS  性能。例如,在带宽方面,通过在云数据中心内支持巨型帧传输、在软硬件模块之间应用包头-负载分离设计,来减少无效的数据包负载移动;在PPS  提升方面,实现了基于硬件的数据包解析和向量化处理,以平摊数据包处理时延。


总结和展望

Triton 是阿里云 AVS 硬件卸载多年来深耕的研发与运维经验集合,基于阿里云自研的CIPU实现,相较于软件转发,带宽提升了 3 倍以上,PPS(数据包速率)和 CPS(连接新建能力)提升 2 倍以上,同时兼顾了可编程性和快速迭代能力。由于复杂业务逻辑由软件承载,赋予了AVS研发迭代极高的灵活性。作为云基础设施中物理网络的“端”,和用户网络的第一跳,vSwitch 在未来超以太网(如UEC、SRD等)演进中的角色至关重要,可以预见到 Triton 的灵活性将为 overlay 网络未来支撑多路径、可靠传输等特性提供了架构优势,在不侵入用户主机的情况下为用户提供“端到端”可靠传输,以及更多的网络能力增强。


Canal Mesh——阿里云低开销、高性能、无侵入服务网格架构


Canal Mesh: A Cloud-Scale Sidecar-Free Multi-Tenant Service Mesh Architecture

论文介绍了阿里云云网络和容器服务团队多年部署 sidecar 模式服务网格发现的问题和经验,提出了全球首个多租、sidecar-free 的服务网格方案,相比竞品提升了十几倍的性能并降低了数倍的资源消耗。


背景


近年来,服务网格框架因其在微服务构建方面的卓越能力而广受欢迎。其中一个重要的组件是位于每个 K8S pod 中的代理(sidecar),提供服务治理、零信任网络、可观测等能力。然而,我们大规模部署后发现过重的 sidecar 带来了很多问题,如侵犯用户隐私、过度消耗资源、超高的管理复杂性,以及性能下降。为了解决上述问题,我们基于阿里云成熟的多租治理经验,提出了云上多租服务网格架构。


Canal Mesh 架构

image.png

Canal Mesh 的方案包含以下两个核心设计:


  1. 通过将 sidecar 的功能拉远、集中化部署、多租共享来减少对用户的侵入性、降低使用成本、简化配置管理。并通过硬件卸载、eBPF bypass kernel 等方式提升性能。
  2. 为了解决拉远、集中和多租部署带来的服务可用性、租户间隔离、noisy neighbor、弹性和高基础设施成本等问题,我们还提出了分层故障恢复、精准弹性伸缩、云基础设施复用等方案。


总结


基于上述设计,Canal  Mesh 在性能、资源使用效率和控制平面开销等方面较 Istio和 Ambient  有显著的优势。我们现在面向公测客户提供云原生化的服务网格解决方案,也欢迎大家加入钉钉交流群:11360036029,共同探讨来实现更优的云上服务网格方案。


结束语


阿里云飞天洛神云网络专注于为阿里云包括   ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与  9 所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM’ 20)和Zoonet (CoNEXT’ 22)、P4硬件网关Sailfish (SIGCOMM’ 21)和LuoShen (NSDI’ 24)、超大规模的网络虚拟化平台Achelous (SIGCOMM’ 23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM’ 24)、公有云虚拟网络控制器平台 Poseiden (NSDI’ 24)、NFV网元平台 CyberStar (ATC’ 24) 和 首个服务网格平台 Canal Mesh (SIGCOMM’ 24)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验

相关文章
|
6月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
246 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
Ubuntu 网络协议 Unix
02理解网络IO:实现服务与客户端通信
网络IO指客户端与服务端通过网络进行数据收发的过程,常见于微信、QQ等应用。本文详解如何用C语言实现一个支持多客户端连接的TCP服务端,涉及socket编程、线程处理及通信流程,并分析“一消息一线程”模式的优缺点。
230 0
|
8月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
267 63
|
6月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
990 2
|
8月前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
438 6
|
8月前
|
存储 运维 监控
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
278 3
|
8月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
252 0
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
245 17
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
208 10
|
11月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。

热门文章

最新文章