《给力吧,x86》专题连载六:网络通信硬件平台巡览•D525篇

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




在上一期连载内容中,我们测试分析了目前主流的G41网络通信硬件平台。结合其价格定位与性能表现来看,该平台比较适合用来打造中低端产品。而在更低端一些的,也是出货量最大的领域,来自英特尔的Atom平台才是毫无疑问的王者,堪称x86架构真正的杀手级解决方案。

在本系列第三篇连载内容中,我们曾经提到协助北京市某学校信息中心的老师们进行过一次选型测试。当时,该校供应商提供了一款基于Atom N270的网络通信硬件平台,在部署为流控服务的情况下达到小包接近900Mbps、大包超过2Gbps的处理能力(使用4个英特尔82574L提供的千兆接口进行测试)。而本次我们的测试对象,是汇尔科技提供的一款基于Atom D525的网络通信硬件平台。与N270相比,D525平台处理器主频更高、计算能力更强,成本却没有太多增加,已成为时下低端领域最主流的选择。

架构精简 配置合理

IEC-516P采用1U规格设计,前面板提供了6个千兆电口(其中两组支持硬件ByPass)、两个USB 2.0接口和一个DB9或RJ45形态的串口。该产品采用了英特尔Atom平台,基于45nm的Atom D525处理器,隶属于PineTrail架构。比起第一代Atom平台,PineTrail从三芯片改进为双芯片设计,在CPU中集成了北桥芯片的部分功能。Atom D525处理器主频为1.80GHz,采用双核四线程设计,集成2 x 512KB L2 Cache,提供了不错的处理能力。其实Atom处理器内核采用的顺序执行机制对于网络业务处理来说并不太合适,双核四线程的D525处理器比起上一代单核双线程的N270会有更大的优势。D525处理器还内置了内存控制器,支持单通道的DDR3-800或DDR2-800内存,最大容量可达4GB。IEC-516P提供了两条DDR3 SO-DIMM插槽,送测样机配备了1条1GB的DDR3内存。

按照英特尔PineTrail平台的规划,D525应该搭配NM10芯片使用,然而NM10仅提供4个PCIe Lanes,限制了通信产品的整体处理能力和部署的灵活性。所以在嵌入式产品线中,英特尔给出了D525与ICH8M的推荐配置。ICH8M可以提供6个PCIe Lanes,以及PCI、IDE、SATA等丰富周边I/O接口。和上一代产品ICH7相比,ICH8比较明显的区别是它支持PCIe v1.1,因此可以支持包括MSI-X在内的一系列新特性。而和面向桌面应用的ICH8相比,面向低功耗移动应用的ICH8M将支持的SATA端口数减少到3个,功耗也有所降低。其实ICH8M内部还整合了1个千兆网络控制器的MAC部分,但其性能无法满足压力较大的网络业务处理,所以包括IEC-516P在内的许多网络通信硬件平台都对其进行了屏蔽处理,转而使用功能、性能更强的独立网络控制器。

IEC-516P通过ICH8M南桥的6个PCIe v1.1信道分别连接到6颗82574L芯片。82574L是沿用已久的嵌入式/服务器千兆以太网控制器,支持两个TX/RX队列和两个RSS队列,是一个成熟稳定、性能尚佳的产品。该芯片使用PCIe v1.1 x1接口,能支持MSI-X等技术,在规格上正好与ICH8M相匹配。ICH8M和Atom D525通过DMI总线连接,实际上就是一个x4的PCIe总线,其单向信号速率/双向信号速率为10Gbps/20Gbps,数据速率则为8Gbps/16Gbps。

在机箱内部,IEC-516P为TDP并不高的Atom D525配备了一个小风扇,并将其安置在机箱出风口的两个风扇附近,因此散热方面完全不成问题。由于整机功耗较低,该产品使用1个180W功率的电源为系统供电,整机功耗不会高于100W,因此180W已经绰绰有余。可靠性方面,IEC-516P内置了支持可编程控制的WatchDog,完善了x86平台的监控机制。存储方面,主板上提供了1个IDE接口和3个SATA接口,可以使用DOM、CF及其他常见的存储介质。送测样机配备了CF接口、IDE界面的1GB DOM,用于安装NCPBench。此外,主板边缘还设计有1个PCI插槽和1个PCIe x1接口的金手指,提供了符合产品定位的扩展性。

性能卓越 低端通吃

考虑到性能数据的可比性,我们依旧使用了NCPBench 0.8对IEC-516P进行测试。按照该软件设定的评估方法,我们将每两个相邻接口配置为桥模式,分别多次考察了1组、2组、3组桥时的整体转发性能,取得稳定后的性能数据(NCPBench的功能介绍和使用方法见本报今年第16/17期51版)。由于IEC-516P只提供了6个千兆接口且不可扩展,在测试3组桥性能时,我们直接将显示器、键盘鼠标插在主板上引出的接口上进行操作。

测试项·配置

帧长度

1组桥

(100%=2Gbps)

2组桥

(100%=4Gbps)

3组桥

(100%=6Gbps)

64 Byte 58.827% 59.475% 40.394%
128 Byte 60.325% 60.582% 45.765%
256 Byte 77.228% 76.136% 53.960%
512 Byte 89.672% 86.620% 59.600%
1024 Byte 97.784% 91.375% 61.583%
1280 Byte 100% 93.207% 62.276%
1518 Byte 100% 94.288% 62.732%

表格:IEC-516P吞吐量测试结果(百分比形式,NCPBench 0.8/转发模式)

测试项·配置

帧长度

1组桥

(100%=2Gbps)

2组桥

(100%=4Gbps)

3组桥

(100%=6Gbps)

64 Byte 1.18Gbps 2.38Gbps 2.42Gbps
128 Byte 1.21Gbps 2.42Gbps 2.75Gbps
256 Byte 1.54Gbps 3.05Gbps 3.24Gbps
512 Byte 1.79Gbps 3.46Gbps 3.57Gbps
1024 Byte 1.96Gbps 3.66Gbps 3.69Gbps
1280 Byte 2Gbps 3.73Gbps 3.74Gbps
1518 Byte 2Gbps 3.77Gbps 3.76Gbps

表格:IEC-516P吞吐量测试结果(带宽形式,NCPBench 0.8/转发模式)

测试项·配置

帧长度

1组桥

(100%=2Gbps)

2组桥

(100%=4Gbps)

3组桥

(100%=6Gbps)

64 Byte 1.75Mpps 3.54Mpps 3.61Mpps
128 Byte 1.02Mpps 2.05Mpps 2.32Mpps
256 Byte 0.70Mpps 1.38Mpps 1.47Mpps
512 Byte 0.42Mpps 0.81Mpps 0.84Mpps
1024 Byte 0.23Mpps 0.44Mpps 0.44Mpps
1280 Byte 0.19Mpps 0.36Mpps 0.36Mpps
1518 Byte 0.16Mpps 0.31Mpps 0.31Mpps

表格:IEC-516P吞吐量测试结果(pps形式,NCPBench 0.8/转发模式)

从测试结果中可以看出,当NCPBench运行在转发模式时,IEC-516P的64Byte帧整机最大转发速率超过3.6Mpps,吞吐量达到2.42Gbps;采用1518Byte帧进行测试时,整机的最大转发速率为0.31Mpps,吞吐量达到3.76Gbps。由此可见,Atom平台虽然在网络通信领域被英特尔定位为低端嵌入式解决方案,却也有着不小的潜力。能在纯转发情况下达到这样的性能,也就意味着D525平台在运行一般的防火墙业务时,可以满足高端百兆乃至低端千兆产品的设计需求。或许,我们印象中“低端产品”的概念需要更新了。

通过挖掘,我们还能从有限的测试数据中捕捉到更多的信息。在1组桥和2组桥的测试中,除了前者在1280Byte、1518Byte时达到100%的极限值外,64Byte-1024Byte帧长有着基本相同的百分比数据(蓝色部分)。当我们将其转化为以带宽和pps为单位的数值时,可以看到2组桥时的处理能力基本是1组桥时的两倍,呈线性增长的关系。而在3组桥的测试中,64Byte-1024Byte帧长时的吞吐量数据并不存在这一规律,反倒是在1280Byte和1518Byte两种帧长时,3组桥的性能与2组桥基本保持一致,整体转发能力均为3.7Gbps左右(红色部分)。

要弄清造成这种情况的原因,我们必须深入了解D525平台做数据包纯转发时的业务流程。以IEC-516P为例,D525处理器通过4x DMI通道连接到ICH8M,后者再通过6条PCIe v1.1 1x通道连接板载的6颗英特尔82574L千兆以太网控制器。通常在进行数据包转发操作时,网络控制器先发起DMA请求,将接收缓存中的数据直接传输到内存;CPU经过软件处理定位到目的网络控制器,通过DMA引擎将数据传输到它的发送缓存中,或是让网络控制器自行将数据从内存中取走(82574L整合了DMA引擎)。这是一个逻辑上简单、实现起来复杂的流程(如果要达到高性能),内存子系统、DMA引擎、DMI、ICH8M、PCIe 1x通道、82574L和软件、驱动程序都有可能成为影响整体性能的因素。

再回到我们刚才注意到的两个情况,既然1组桥和2组桥时,64Byte-1024Byte在带宽和pps测试结果上呈线性增长,说明瓶颈不在内存子系统、DMA引擎和DMI。而我们在测试其他更高规格的平台时,基于82574L也得到过更高的性能数据,说明这款网络控制器和PCIe v1.1 1x通道也不是瓶颈。只有在进行3组桥的64Byte-1024Byte帧长测试时,得到的数据才有可能是系统整体的极限。而2组桥与3组桥在1280Byte、1518Byte帧长测试中表现出来基本一样的吞吐量数值,显然是在带宽方面遇到了瓶颈,但可能与DMA引擎、ICH8M、PCIe v1.1 1x通道和82574L关系不大。我们暂时无法再对性能短板做更加精准的定位,不过从完整的测试数据来看,DMI、内存控制器与软件处理逻辑有可能是造成D525平台整体性能瓶颈的关键因素。

无论如何,目前D525平台在NCPBench的驾驭下,已经有着十分优秀的性能表现。随着厂商研发的继续深入和软件技术的不断发展,该平台的性能一定会得到更充分的挖掘,在低端网络通信、信息安全领域有着很好的应用前景。

(4个打分, 平均:3.25 / 5)

雁过留声

“《给力吧,x86》专题连载六:网络通信硬件平台巡览•D525篇”有8个回复

  1. lenky 于 2011-12-11 9:55 下午

    现在弯曲要翻墙才能访问了?

  2. 会儿 于 2011-12-11 10:20 下午

    汇尔的产品返修率太高,尤其是使用一年之后。怎么选他们的东西做测试呢?!!!木有说服力啊。

  3. 隔靴挠痒,管中窥豹 于 2011-12-12 4:59 上午

    召唤MainBoard硬件工程师。

  4. gaohl 于 2011-12-12 7:37 下午

    小包2.4G,很强啊

  5. cracked 于 2012-01-06 7:40 下午

    老韩 除了汇尔 还有哪家公司提供这些网络安全平台。搞的我都想做个防火墙来玩玩

  6. 小韩 于 2012-01-06 9:51 下午

    很多的,邮件联系吧,hanxu0514在gmailcom。前一阵拆了个伯昇的525,竟然做成纯被动散热了,挺赞的,1u半深的体积,6个574。我拍下来发微博了。

  7. bbb 于 2012-01-21 6:47 上午

    听小韩这么一分析,那中低端的网络设备会不会被x86硬件通信平台+linux横扫?

  8. 白云 于 2013-04-27 6:46 下午

    祈飞的工控机不错的!