资讯中心

25G与SerDes的速率更匹配!

2017.09.01

25G以太网是一个新兴的网络技术标准,主要面向下一代的数据中心网络,更准确的说,25G以太网主要用于下一代数据中心里的服务器接入。如果要问下一代数据中心网络的接入速率为什么会是25G,而不是10G或者是40G? 

简单的答复是:25G比10G快,效率比40G高,成本又比40G低

如果需要给一个更加Techinical的答复的话,那是因为25G与SerDes的速率更匹配!





 

以太网虽然是Xerox公司发明的,但以太网技术真正的发扬光大,是在IEEE组织制定的802.3 系列规范普及之后,而25G/50G以太网技术的发起和协议标准制定,却又主要归功于称为"25G/50G 以太网联盟"的另一个组织。

 

25G/50G以太网联盟由下列几家公司组成:


如果只看上图中的顺序排名的话,你可能会以为Arista在25G以太网联盟里起了很大作用,但实际情况是:25G以太网协议标准主要是由排名最靠后的Microsoft和Google这两家数据中心网络的用户首先发起,Broadcom和Mellanox作为芯片供应商主要负责制定了协议规范并研发了对应的交换芯片,Arista只是作为最后的数据中心交换机整机厂商参与罢了。

 

微软在2014年提交给IEEE 的25G Ethernet CFI里这样描述25G以太网:

也就是说:

1.    25G以太网主要想解决的是当时已经存在的10G/40G Ethernet MAC层速率和PHY层SerDes速率不匹配问题; 

2.    25G以太网主要用于ToR交换机到服务器之间的接入,相对10G可以显著增加接入速率(2.5x),相比40G又可以降低对应成本;

3.    使用25G速率的以太网卡可以更好的和服务器上的PCIe通道速率匹配

 

25G虽然从速率上来看不如40G高,但相比10G也有2.5倍的提升,而采用25G方案的交换机相比40G则可以提供更高的端口密度,又因为同10G一样采用单通道(Single Lane)进行连接,连接线缆的成本要求更低,而且还可以利用数据中心内部现有的光纤,总体成本相比40G来说更有优势。

另外一个隐含的原因其实是40G网卡的速率对于现如今绝大多数场景的服务器来说都显得过剩了,在10G网卡速率不能满足业务需要时,升级到25G相比40G更加实用、经济和高效。

 



 

25Gbps速率的SerDes 通道

要理解前面提到的单通道(Single Lane)连接方式,就必须提到SerDes,SerDes是英文串行解串器(Serlializer和Deserializer)的缩写,它是目前主流的高速串行点对点通讯方式。它接收将要传输的数据并进行序列化处理,然后发送到对端的解串器,接收端的解串器再将这些序列化的比特流重组为数据然后交给接收器使用。

 

SerDes被广泛的应用在各种电路与光纤通信技术中,从计算机内部使用的PCIe接口到网卡上PHY的连接以至于到交换机内部芯片之间的互联,全都是采用SerDes连接。当前主流Serdes的速率正好就是25Gbps,也就是说从25G网卡出来到另外一端的25G网卡,端到端的所有连接全都只需要使用一条25Gbps速率的SerDes连接通道即可,而40GE则需要需要四个10G SerDes连接通道才能实现,两个40GE网卡之间的通信,需要多达四对的光纤(此处未考虑采用波分技术的Bidi或CWDM光模块)。


另外,在作为汇聚和骨干被广泛使用的100GE实际上内部也是采用4x25G也就是4个25G速率的SerDes通道实现的,使用一条QSFP28转SFP28的线缆就可以非常方便的转换成4个25G端口,使用25G在与100G匹配度方面相比40G也具有明显的优势。

 



 

25G网卡对PCIe通道的使用效率更高

目前主流的英特尔Xeon CPU都只提供40个PCIe 3.0通道,单个PCIe 3.0的通道带宽约为8Gbps(因为采用128b/130b编码实际可用带宽略小于8Gbps),这些PCIe通道不仅要用于CPU同网卡之间的通讯连接,还要用于RAID卡、GPU卡以及其它所有外设卡之间的连接通讯。随着近年来SSD的普及,各种PCIe Flash卡,NVMe SSD也都需要使用这些宝贵的PCIe通道,因此需要更高效的考虑网卡对有限的这些PCIe通道的利用情况。

单口的40G网卡至少需要使用一个PCIe 3.0 x8的槽位,在数据中心环境里,一般都会部署双个网口绑定实现高可用,这样两个40GE网卡就需要占用2个PCIe 3.0 x8的通道,即使这2个40G网口都能同时跑满数据,实际的通道带宽利用率也只有:

(40G+40G) / 8G*16= 62.5%

而如果采用25G网卡的话,即使配置一个双口的25G网卡,也只需要采用一个PCIe 3.0 x8的连接,这时双口网卡对于PCIe的有效使用效率为:

 25G*2 /  (8G*8) = 78%

而如果采用两个单口25GE网卡以实现更高的可用性的话,则使用2个PCIe 3.0 x4的槽位就可以满足带宽要求了。

很显然,25GE在对PCIe通道的使用方面相比40GE明显具有更高的效率而且使用更为灵活。



 

数据中心采用25GE布线成本更低

25G以太网标准里定义了用作机柜内部连接的Twinax电缆以及可以最远可以传输100米距离的光纤连接标准,用双绞线的25G BaseT则会直接引用40G BaseT的规范,也就是采用8类线进行连接。

40GE网卡和交换机上使用的是QSFP+模块,如果是用于机柜内部或者相邻机柜的连接,可以采用QSFP+的DAC线缆,而如果用于更远的连接就必须使用QSFP+光模块配合MPO光缆进行传输了,常见的MPO光缆内部有12根光纤,相比10GE时代两芯的LC接口的光纤成本明显高出不少,而且完全不能兼容,如果是基于现有10GE升级到40GE的话,则全部的光纤线缆都要废弃并采用MPO光缆进行重新布线,这样耗费的人力物力以及时间成本无疑是巨大的。

而25GE网卡和交换机上使用的是SFP28模块,因为仅采用单通道连接,所以兼容过去10GE时代的LC光纤。如果是从10GE升级到25GE的话,则完全不用考虑重新布线的事情,设备升级完之后可以即插即用,省时省力。

 



 

交换机对25G的支持

25G/50G以太网联盟的两家芯片厂商——Broadcom和Mellanox,都在2014年分别推出了支持25G以太网的交换芯片,尤其是占交换机芯片市场主导地位的Broadcom发布的Tomahawk芯片更是得到了众多交换机厂商广泛的使用,Tomahawk芯片采用25Gbps SerDes技术,3.2Tbps的交换容量可以提供32个100GE或者128个25GE端口的灵活解决方案,同时还提供对50G/40G/10G端口的兼容支持,同时还具备其它一些非常适合数据中心网络应用的关键特性:

1.    低延时,端到端的延时可以控制在1微妙内,具体来说:二层交换延时仅为300ns,如果用作三层交换时延时也仅仅只有400ns

2.    支持高性能存储和RDMA协议RoCE,尤其是支持最新的RoCEv2,可以将过去仅支持二层网络的RDMA延伸到三层网络的支持

3.    支持OpenFlow 1.3+协议,可以与Openflow控制器配合用于SDN组网环境里

4.    提供对Overlay/隧道的VXLAN网关技术的支持

 



 

25G以太网卡的支持

在25G以太网技术标准发布后,几家主要的网卡芯片厂商都已经发布了自己的25G以太网解决方案,包括Brodcom、Mellanox以及Qlogic都分别推出了自己的25G芯片及网卡,比如Broadcom公司的P225C网卡,Mellanox公司的ConnectX-4Lx以及QLogic的QL45212网卡等,而作为数据中心领导者的Intel在前一段时间也不声不响的发布了自己的XXV710系列25G网卡,Intel XXV710网卡实际上就是把Intel以前的40G网卡XL710改成了25G速率。


这些网卡基本都基于各家公司成熟的芯片技术,同时也都提供对RDMA、VXLAN等新技术的支持,可以帮助数据中心内部实现完整25G端到端网络解决方案。