RoCE网络技术和实现方式

el/2024/4/19 22:35:53

图片

 

图片

在数据为王的时代,人们对网络的要求更加严苛。然而传统的TCP / IP以太网连接占用了大量的CPU资源,并且需要额外的数据处理,已无法再满足当前更快、更高效和可扩展性的网络需求。在这种情况下,RoCE(RDMA over Converged Ethernet )走进了人们的视野。

 

图片

什么是RDMA?

图片

 

RDMA(远程直接数据存取)就是为了解决网络传输中服务器端数据处理的延迟而产生的,无需使用CPU,就可以从一个主机或服务器的内存直接访问另一主机或服务器的内存。它释放了CPU去执行其应做的工作,比如运行应用程序和处理大量数据。这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

 

图片

RDMA技术

 

因此,RDMA可以简单理解为利用相关的硬件和网络技术,服务器1的网卡可以直接读写服务器2的内存,最终达到高带宽、低延迟和低资源利用率的效果。

 

如下图所示,应用程序不需要参与数据传输过程,只需要指定内存读写地址,开启传输并等待传输完成即可。

 

图片

 

目前,大致有三类RDMA网络,分别是Infiniband、RoCE、iWARP。其中,Infiniband是一种专为RDMA设计的网络,从硬件级别保证可靠传输 ,而RoCE 和 iWARP都是基于以太网的RDMA技术,支持相应的verbs接口。

 

图片

什么是RoCE?

图片

 

顾名思义,RoCE是在InfiniBand Trade Association(IBTA)标准中定义的网络协议,允许通过以太网络使用RDMA。简而言之,它可以看作是RDMA技术在超融合数据中心、云、存储和虚拟化环境中的应用。

 

RoCE的类型

 

RoCE协议存在RoCEv1和RoCEv2两个版本,这取决于所使用的网络适配器或网卡。

 

RoCE v1:RoCE v1是基于以太网链路层实现的RDMA协议(交换机需要支持PFC等流控技术,在物理层保证可靠传输),允许在同一个VLAN中的两台主机进行通信。RoCE V1协议在以太层的typeID是0x8915。

 

RoCE v2:RoCE v2克服了RoCE v1绑定到单个VLAN的限制。通过改变数据包封装,包括IP和UDP标头,RoCE v2现在可以跨L2和L3网络使用。

 

图片

RoCE v1与RoCE v2数据包格式

 

如何实现RoCE?

 

通常,为了实现RoCE,可以安装支持RoCE的网卡或卡驱动程序。所有以太网NIC都需要RoCE网络适配器卡。RoCE驱动程序在Red Hat、Linux、Microsoft Windows和其他常见操作系统中使用。RoCE有两种可用方式:对于网络交换机,可以选择使用支持PFC(优先流控制)操作系统的交换机;对于机架服务器或主机,需要使用网卡。

 

图片

 

RoCE的好处

 

  • 低CPU占用率:访问远程交换机或服务器的内存,无需消耗远程服务器上的CPU周期,从而可以充分利用可用带宽和更高的可伸缩性。

  • 零复制:向远程缓冲区发送数据和接收数据。

  • 高效:由于RoCE改善了延迟和吞吐量,网络性能得到了很大提高。

  • 节省成本:借助RoCE,无需购买新设备或更换以太网基础设施即可处理大量数据,从而大大节省了公司的资本支出。

 

图片

 

图片

关于RoCE的常见问题

图片

 

下面列出了一些有关RoCE的常见问题。

 

1. RoCE与iWARP、InfiniBand的技术对比

 

RDMA最早在Infiniband传输网络上实现,技术先进,但是价格高昂,后来业界厂家把RDMA移植到传统Ethernet以太网上,降低了RDMA的使用成本,推动了RDMA技术普及。在Ethernet以太网上,根据协议栈融合度的差异,分为iWARP和RoCE两种技术,而RoCE又包括RoCEv1和RoCEv2两个版本(RoCEv2的最大改进是支持IP路由),各RDMA网络协议栈的对比如下图所示。

 

图片

 

  • Infiniband,支持RDMA的新一代网络协议。由于这是一种新的网络技术,因此需要支持该技术的NIC和交换机。

  • RoCE,一个允许在以太网上执行RDMA的网络协议。其较低的网络标头是以太网标头,其较高的网络标头(包括数据)是InfiniBand标头。这支持在标准以太网基础设施(交换机)上使用RDMA。只有网卡应该是特殊的,支持RoCE。

  • iWARP,一个允许在TCP上执行RDMA的网络协议。IB和RoCE中存在的功能在iWARP中不受支持。这支持在标准以太网基础设施(交换机)上使用RDMA。只有网卡应该是特殊的,并且支持iWARP(如果使用CPU卸载),否则所有iWARP堆栈都可以在软件中实现,并且丧失了大部分RDMA性能优势。

 

RoCE和iWARP,一个是基于无连接协议UDP,一个是基于面向连接的协议(如TCP)。RoCEv1只能局限在一个二层广播域内,而RoCEv2和iWARP都能够支持三层路由。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的额内存资源,对系统规格要求更高。另外,RoCE支持组播,而iWARP还没有相关的标准定义。

 

2. RoCE适配器可以与其他适配器类型(例如iWARP)通信吗?

 

RoCE适配器只能与其他RoCE适配器通信,如果混合适配器类型配置的话,例如RoCE适配器与iWARP适配器组合,都可能会恢复为传统的TCP / IP连接。

 

图片

结论

图片

 

在数据中心中运行RDMA,可以减轻数据移动的负担,并为应用程序提供更高的CPU资源可用性。RoCE协议可以从RDMA的功能中受益,而无需更改其网络基础架构。通过减少以太网延迟和CPU开销,RoCE可以提高搜索、存储、数据库和高事务处理率应用程序的性能。通过提高CPU效率和应用程序性能,RoCE可以减少所需的服务器数量,从而节省能源,并减少基于以太网的数据中心的占用空间。

 

推荐阅读:

重发:终极版服务器基础知识(附PDF下载)

 

原文链接:

https://community.fs.com/blog/roce-rdma-over-converged-ethernet.html

RDMA技术原理分析、主流实现对比和解析

转自:SDNLAB

图片

 

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

 

推荐阅读

更多架构相关技术知识总结请参考“架构师技术全联盟书店”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。

 

 

温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)”电子书资料详情。

图片

图片


http://www.ngui.cc/el/4994465.html

相关文章

干货:操作系统核心技术实战

都说操作系统(简称 OS ),是程序员的三大浪漫之一,我们经常会用“灵魂、大脑、内核、基石”等词来形容它,足以见得它对计算机而言有多么重要。 在实际工作中也确实如此,很多遇到的疑难杂症,都和操…

混合云市场现状与发展趋势研究

广义的混合云将涉及云计算的技术全部涵盖在内,包括同构云计算,异构云计算,传统 IT 和云计算的混合,以及包括多云在内的云计算能力。狭义的“混合云”定位在通过私有云确保 IT 服务交付和核心业务安全合规的同时,选择云…

并行计算与分布式计算原理

云计算是一种新的技术趋势,可以更好地利用IT基础设施、服务和应用。云计算采用了一种按使用付费的服务交付模式,用户无需拥有自己的基础设备、平台或应用,只在需要时使用这些服务即可。串行和并行是两种基本的主要计算模型。串行计算起源于 2…

高性能计算网络,RoCE vs. InfiniBand该怎么选?

高性能计算网络平台解决方案(技术细节参考:从高性能计算(HPC)技术演变解析方案、生态和行业发展趋势),能够解决物探高性能计算中,基于GPU的程序必须调用 IB栈,而传统TCP/IP 堆栈应用无法支撑高性能计算网络…

数据中心硬件架构拆解分析

内容来自:全栈云技术架构,《IDC系列报告全集》 下载链接:IDC系列报告全集 IDC系列报告一:数字产业基石,关注核心IDC企业 IDC系列报告二:还原IDC行业的真实盈利能力 IDC系列报告三:数据中心中…

信创产业专题:突破核心技术,信创扬帆起航(2021)

文章来源:信创产业专题:突破核心技术,信创扬帆起航(2021) 信创行业产业链主要分为基础设施(芯片、PC/服务器、存储等)、基础软件(操作系统、数据库、中间件等)、外设、应…

Ceph分布式存储系统架构研究综述

Ceph项目是加州大学圣克鲁兹分校的 Weil于2006年开发的。当时他发现元数据的查询和维护严重影响了 Lustre等分布式文件系统的性能和扩展性,因此设计了一种利用算法来确定数据与存储节点对应关系的方法 CRUSH。2015年5月发布的 Linux内核2.6.34已开始支持Ceph。Weil也…

回顾:云计算的前世今生

文丨全球物联网观察 对于“云计算”这个名词,大家早已耳熟能详,而且出场率越来越高!但对于很多新入行的“小白”来说,其中涉及的各种概念可能令人毫无头绪,这篇文章从最基础的角度出发,希望成为你的快速入门…

MMS(Multimedia Message System)支持的mdia总结

1. Image要求device可支持的最大分辨率:160*120 pixels--Image Basic640*480 pixels--Image Rich, Video Basic and Video Rich可支持的字节数(kb):30--text; 30--basic image; 100--rich image;100--basic video;300--rich video 2. PIM(Personal Info…

SMIL 中的ref使用

当在SMIL中指定某个content时&#xff0c;需要指出它的region. 可是如果对某个content的所属group没有把握时&#xff0c;就可以采用ref这个element. 比如&#xff0c;对drm DCF&#xff0c;无法将它归类到某个group, 就可以这么写&#xff1a; <ref srcman.dcf>