(IP、RDMA、IB、RoCE、AIFabric)面向数据中心的无损网络技术

TCP/IP是RDMA的替代品。

尽管经过30年的发展,传统的TCP/IP网络已经日益成熟,但它固有的技术特征限制了AI计算和分布式存储的应用。

限制一:数十微秒时延TCP/IP协议栈处理。

在收到/发送报告时,TCP协议栈的核心需要在上下文之间进行多次切换。每次切换大约需要5us~10us。此外,它还需要至少三次数据复制和依赖CPU的协议包装,这导致几十微秒的固定延迟仅通过协议栈的处理,使协议栈延迟成为AI数据操作中最明显的瓶颈,SSD分布存储-微秒系统。

限制二:服务器CPU负载居高不下,TCP协议栈处理。

除了固定时间延长的问题外,TCP/IP网络还需要主机CPU参与协议栈内存复制。网络越大,网络带宽越高,CPU在发送和接收数据时的调度负担越大,导致CPU持续高负载。根据行业计算数据:当网络带宽达到25g(满负荷)时,每次传输1个bit数据需要1HzCPU,对于大多数服务器来说,至少有一个半CPU能力必须用于传输数据。

为了将协议栈时延降低到接近1us,RDMA规避了TCP的上述限制。

RDMA的核心旁路机制允许应用程序和网卡之间的直接数据读写,并将服务器中的数据传输延迟到接近1us。同时,RDMA的内存零复制机制允许接收器直接从发送端的内存读取数据,大大减轻了CPU的负担,提高了CPU的效率。

图片

根据一家知名互联网制造商的测试数据,RDMA可以将计算效率同比提高6~8倍,而服务器中1us的传输延迟也使SSD分布式存储的延迟从ms级降低到us级。因此,在最新的NVMe接口协议中,RDMA已成为主流的默认网络通信协议。因此,在追求AI运算和SSD分布式存储最终性能的网络浪潮中,RDMA取代TCP/IP已成为大势所趋。

目前,两种类型的RDMA网络承载方案存在不足。

不能兼容现网的Infinininiband封闭架构。

Infininiband交换机是一种特定制造商提供的特殊产品,使用私人协议,而大多数当前网络使用IP以太网络。因此,Infinininiband不能通过使用Infiniband来满足需要广泛互联的人工智能计算和分布式存储系统的互联互通需求。与此同时,封闭式架构也存在制造商锁定的问题。对于未来需要大规模弹性扩展的业务系统,如果被制造商锁定,风险是无法控制的。Infininininiband被广泛应用于传统HPC的小范围独立集群。

作为一种特殊的网络技术,Infinininininininiband无法继承用户在IP网络上运维的积累和平台,企业需要重新招聘特殊的运维人员才能引入Infinininininiband,目前Infininiband的市场空间很小(不到以太网的1%)。

IP使吞吐率极低的网络拥塞丢包。

基于传统的IP以太网络承载RDMA的IP网络承载RDMA的标准化已经完成,这也是RDMA大规模应用的必然条件。然而,在无损Infiniband网络中,RDMA的最初提议是承载RDMA,缺乏完善的包装保护机制,对网络包装极为敏感。2%的丢包使RDMA的吞吐率降至0。为了防止RDMA的吞吐率,丢包率必须低于10万分之一,最好是无损包。

© 版权声明
THE END
喜欢就支持以下吧
点赞8
分享
相关推荐
  • 暂无相关文章
  • 评论 抢沙发
    源码客的头像-源码客

    昵称

    取消
    昵称表情图片