云原生5G核心网需要DPU吗?

智慧教室

dpu硬件加速具有诸多优势,其中最显著的优势是可以极大地提高网络性能,可以提供比传统技术更高的速度、更低的延迟和更强的网络性能。

2022 年,全球 5g 连接数突破 10 亿大关,每个 5g 用户消耗的数据量是非 5g 用户的两倍,移动网络流量正在快速增长。分析机构omdia 预测:到 2023 年,5g用户平均每月将消耗14gb,到2027年将翻一番,达到28gb。

对于运营商来说,需要考虑如何处理这些快速增长的流量。

5g核心网向云原生演进

目前,5g核心网的设计都是基于nfv虚拟化架构,由vnf(虚拟网络功能)组成。vnf是构建在通用硬件上的软件包,是在虚拟环境中运行的网络功能。

nfv概念最早由etsi 组织提出,是指通过it虚拟化技术,利用标准化的通用it设备来实现各种网络设备功能。其本质是实现硬件资源与软件功能的解耦,目标是通过标准的x86服务器、存储和交换设备来取代通信网络中私有的、专用的网元设备,在为运营商节省投资的同时实现新业务的快速开发和部署,并基于实际业务需求实现自动部署、容量的弹性伸缩、故障隔离和自愈等功能。

如图所示firewall、vpn gateway 两台pnf,需要使用两台虚拟机来运行此 vnf。此外,虚拟机的管理程序(hypervisor)将物理服务器分割成了多个逻辑服务器(vm)。同时,虚拟机还需要在宿主机之上为每台虚拟机运行guest os操作系统,这对服务器来说是一个额外的负担。

然而,脱离了专用硬件的vnf是大颗粒的电信软件包,非常庞大、复杂,动辄涉及数百万行软件代码,这意味着从软件开发到发布、测试,整个过程工作量巨大,估计要耗费一年的时间。

为满足5g应用场景大带宽和低时延的特性要求,5g核心网的用户面在部署时不仅要下沉到边缘或区域数据中心以减少传输时延,而且还要大幅减少用户面报文的转发时延,vnf(虚拟网络功能)已经无法快速需求。

那怎么办?基于云原生的设计原则,将大颗粒的vnf进一步分解为多个小颗粒的微服务。微服务不仅颗粒小,且具有独立的生命周期管理,可以实现更细粒度的软件开发、发布、测试和升级,这就提升了运营敏捷性。

云原生(cloud native)定义了一种在虚拟云环境中开发和运行应用程序的新方法。云原生原则包括以下内容:

  • 应用程序被“分割”成更小的单元,称为微服务。一组更小的、相互连接的微服务取代了单个应用程序
  • 容器容纳微服务并提供运行时环境。容器无需虚拟机开销,而是打包应用程序代码、二进制文件和依赖项。容器之间共享同一个guest os或host os系统/内核。
  • kubernetes 编排提供完整的容器生命周期管理。包括调度、启动/停止/重新启动和可见性。

| 网络功能的演变:从传统的垂直整合方式,到由通用虚拟机编排平台管理的 vnf,再到由通用容器编排平台管理的 cnf

cnf还具有其他突出优势,包括:

  • 提高灵活性和敏捷性,推出新服务或升级不再涉及更换任何硬件。
  • 降低成本,程序部署需要的硬件比支持vnf所需的硬件还要少。
  • 改进的可扩展性,因为容器化的微服务可以根据需要横向或者纵向扩展。由于云的特性,很容易部署更多的硬件资源,支持大量流量或并行用户涌入,基本上可以认为拥有无限可扩展性。
  • 提高容错性和可靠性。如果一个容器因任何原因而离线,运维人员可以立即启动另一个容器。

提高网络性能:软件or硬件?

长期以来,业界一直在争论最初为计算任务而设计的基础设施,如何有效地处理 5g 用户面和低延迟边缘用例?

关键讨论之一是:使用硬件加速器(又名 smartnic 或数据处理单元 (dpu))来卸载数据包处理以此更有效地利用服务器资源,还是寻求优化性能的软件?

有观点认为,软件仍然有可能是主要的效率提升方式,即通过精心设计的云原生网络功能 (cnf),并且这是近期更好的方法,因为它保留了敏捷性和工作负载可移植性,可以使云变得更加强大。

硬件方案指通过将处理工作分配给加速硬件(协处理器)以降低中央处理器负荷,利用适合的加速硬件具有的处理优势可实现性能提升、成本优化的目的。

nfv下的硬件普遍采用x86通用服务器,而x86通用服务器的i/o性能如吞吐量、时延等远不如传统的专用硬件,无法满足5g 场景的商用部署要求。从表面上看,硬件加速在 5g 核心中具有吸引力。

使用dpu/smartnic等外置硬件卸载数据包处理,可提高流表查表和报文处理能力。对于需要加速的数据流报文,无需上传cpu,在dpu/smartnic本地即可处理转发,实现数据报文硬件级处理和转发,最大限度的降低了业务报文的使用。这样可以极大减少对cpu资源的占用,大幅提升性能并减少时延。

此外在虚拟化层,现有nfv架构的业务层、虚拟化层和硬件层解耦推进缓慢,可探索虚拟化层下沉到dpu,使nfv架构更加开放。

目前运营商正在推动开放的upf,但当前大量upf与设备厂商绑定。采用dpu/smartnic可以实现upf的gtp、qos、forward等功能卸载,提高upf转发效率,提高单服务器吞吐量,降低处理时延、抖动和丢包率等,并可以减少各站址用户面服务器部署数量,从而降低对机房空间、功耗、散热要求,降低成本。

用于 5g 核心网的 dpu/smartnic

下图是关于“您的组织是否希望在其 5g 核心用户平面中广泛使用硬件加速( dpu/smartnic)?”的用户调查结果。

40% 的受访者选择“在特定场景(例如固定无线接入)下使用dpu/smartnic”。固定接入服务每次连接产生的吞吐量比移动服务要大得多(根据经验来说,一般高 10 倍左右)。因此,使用硬件加速的理由更为充分。虽然这还需要几年的时间,但如果有线和无线开始融合,并且为固定和移动接入部署同一个用户平面,将有更多人选择使用硬件加速。

38% 的受访者选择了“广泛使用dpu/smartnic,用户平面加速在大多数情况下必不可少”,他们预计硬件加速对于有效处理 5g 核心用户平面流量将非常重要。

左右摇摆

dpu硬件加速具有诸多优势,其中最显著的优势是可以极大地提高网络性能,可以提供比传统技术更高的速度、更低的延迟和更强的网络性能。这样可以使5g网络能够更快、更可靠地传输数据。

虽然dpu/smartnic硬件加速在 5g 核心网中具有一定优势,但业界一度对核心网 nfv 的用户面是否需要使用硬件加速持怀疑态度。

通用硬件平台虚拟化是大势所趋,运营商刚从专用设备中转型脱身,dpu/smartnic似乎又回到了熟悉的专用硬件

硬件加速效能比达不到预期:专用设备被诟病的主要原因在于设备商垄断造成了高昂成本。当前,核心网硬件加速性能提升和成本下降有限,同时引入加速硬件可能带来的硬件绑定问题,使运营商难以下定决心

还有传闻称,当前的 5g 流量负载并不真正需要部署 dpu/smartnic加速技术。通过良好的软件设计和明智的部署选择,就可以在标准服务器硬件上轻松处理 5g 移动用户平面流量。

当然,也有观点认为,软硬件协同加速才是大势所趋。

如果目前只有少数地方/服务需要硬件加速,运营商须综合考虑现在是否需要投资这项技术。因此,总体来看,运营商对5g核心网用户面的硬件加速存在兴趣,但目前形势尚不明确。