天河一号的内幕。。。

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




【陈怀临注:从弯豆(弯曲评论粉丝的简称,咱也学超女文化)给的link,去了新水木清华体系结构站,看到这篇文章。不错,转载之。读者请注意以下文中关于Propritary互联芯片的介绍。。。这个互联可能就是天河灭曙光最重要的东东。。。另外,感叹一下。当年首席在smth做体系结构斑竹的时候,才32,33岁。想想可真是年轻呀。。。天行健,君子自强不息。N万年太久,只争朝夕!。。。不发财,不罢休!!!:-)】

【IT168 专稿】在10月28日召开的2010年全国高性能计算学术年会上,中国高性能计算机排行榜Top100再度被 刷新。国防科大研制的“天河一号”以2507万亿次的Linpack成绩再度取得了第一名,而此前被众人看好的曙光“星云”则以1271万亿次的成绩屈居 第二,爆出了本次Top100排行最大的冷门。

“天河一号”再度夺魁 系统规模今非昔比

据了解,国防科大自主研发的“天河一号”自去年以峰值性能1206万亿次夺得国内TOP100第一名以来,经过对CPU和Tesla计算卡的升级以及今年新加入的国产飞腾系列处理器(详见这里),使其计算性能猛增到2507万亿次。

Top100爆冷门 天河一号力压星云再夺魁

目前“天河一号”配备了14336颗至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频),而GPU方面则采用了7168块基于 Nvidia “Fermi”架构的Tesla M2050计算卡(主频1.15GHz,双精度浮点性能515Gflops、单精度浮点性能1.03Tflops)。而2048颗国产飞腾处理器的使用则 使“天河一号”如虎添翼(八核64线程,主频1GHz),后面我们会详细阐述。

▲“天河一号”的CPU计算节点,四路节点上每个至强X5670处理器(32nm工艺,六核12线程,2.93GHz主频)拥有六根内存,以4Gb*6*4来计算,单CPU计算节点的内存容量可以达到96Gb,如果采用8Gb DDR3内存则单节点内存容量可以达到192Gb之巨。

Top100爆冷门 天河一号力压星云再夺魁
▲ “天河一号”采用了国产处理器“飞腾”,65nm工艺,八核64线程,晶体管数目达到3.5亿个。芯片主频800Mhz-1Ghz,拥有3个HT直连总线 接口,4个独立的DDR3内存通道,带宽达到32GBps,8个PCIE 2.0通道,从规格上看要么是采用了微处理器内核设计,要么就是超低缓存设计(晶体管数量决定了两者只能取其一)

相比去年“天河一号”仅有5120个CPU(其中E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个)和5120个AMD HD4870组成的GPU计算模块(详见这里),现在的“天河一号”在性能上的飞跃也就不足为奇了。

“天河一号”有秘密武器 “星云”爆冷有三大原因

那么曙光“星云”超级计算系统作为曙光6000的一部分,今年5月底在Top500榜单上荣获第二名的好成绩,也同样采用了至强5600系列处理器和“Fermi”架构的Tesla计算卡,为什么会“悲情”的被爆冷呢?——原因有三个方面:

首先是规模上,“星云”拥有了120640个处理核心(CPU和GPU数量之和,详见这里);而现在的“天河一号”CPU部分拥有202752个核心(CPU核心数102400个,GPU核心数100352个),规模上较“星云”高出59.5%。内存规模也达到了262TB,后台存储容量为2PB。

其次是处理器选型上,“星云”采用的是较低主频的X5650(主频2.66GHz),而“天河一号”则采用了X5670(主频2.93GHz),值得注意的是X5670的功耗与X5650相同,均为95W(详见这里);而GPU方面“星云”采用的是C2050(T3600刀片机箱每个插了10块C2050计算卡),而“天河一号”采用的是M2050计算卡(一个字母之差区别在何处?点击这里这里分别查看两款计算卡的区别,其实就在于GPU附带的3G存储器的存储频率——1.5Ghz与1.55Ghz的区别)。

Top100爆冷门 天河一号力压星云再夺魁
▲ “天河一号”的GPU计算节点,Nvidia “Fermi”核心Tesla M2050系列计算卡,拥有448个流处理器核心(CUDA核心),主频1.15GHz,专用ECC存储器是DDR5规格的3Gb缓存,缓存频率高达 1.55GHz,这使得GPU内数据存储速率达到了148Gb/s。由于散热和功耗等因素,一个GPU计算节点中只放置了两块M2050计算卡。

第三点也是最核心的区别——“天河一号”采用了双向160Gbps私有高速通讯网络,远远超过了“星云”所采用的QDR Infiniband 40Gb的通讯速率,可以说这种通讯速率上的秘密武器才使得“天河一号”得以集成如此多的处理器和GPU计算卡。而国产“飞腾”处理器的加入,不但有助于计算性能的提升,也为国产处理器进入大规模实际应用做了示范。

Top100爆冷门 天河一号力压星云再夺魁
▲“飞腾”处理器近照披露

Top100爆冷门 天河一号力压星云再夺魁
传说中的高速互联交换芯片“NRC”和接口芯片“NIC”。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制 程工艺,该NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——细心的读者可以发现其比“飞腾”处理器晶体管要多(再度认为飞腾的微内核专用 性更强)

(5个打分, 平均:4.20 / 5)

雁过留声

“天河一号的内幕。。。”有26个回复

  1. richtielee 于 2010-11-14 5:40 下午

    首席厉害呀,最重要的东东被你一眼就看穿了。这个互联芯片确实在系统中起到了至关重要的作用…

  2. somebodyinchina 于 2010-11-14 7:36 下午

    首席处处表达想发财的愿望,叫发财比首席好,以后尽量叫你陈发财吧。很想听扣“飞腾”处理器相关的内容,看看能否用在别处

  3. KISS 于 2010-11-14 7:55 下午

    首席越来越幽默了,“天行健,君子自强不息。N万年太久,只争朝夕!。。。不发财,不罢休!!!”这句话我要借用一下,哈哈

    btw: 首席,最近又一个搞MIPS的人要发财了,君正IPO:
    http://www.csrc.gov.cn/pub/zjhpublic/cyb/cybypl/201011/t20101112_187067.htm

  4. Lucifer 于 2010-11-14 9:09 下午

    老实说……图注很糟糕……文章质量堪忧

    首先:IOH是北桥……不是南桥;目前Nehalem-EP/Westmere-EP配的IOH/北桥确实叫做Tylersburg-EP,不过它是类似P3那样的核心裸露封装,因此图上的标注错的很离谱:标注为南桥IOH的塑料封装无散热片芯片实际上不是IOH,而是ICH10R,标注为大宋NIC的大型铝散热片下覆盖的才是IOH……5520或者5500芯片(两个芯片的区别是PCI-E的支持不同),根据笔者的观点,大宋不可能做出一个顶替IOH的芯片来(需要完美支持多路QPI、PCIE/连接南桥的DMI这几个总线,还要提供对IRQ、DMA等完善的路由/仲裁功能)

    其次,大小写的B/b也就是字节/位不分,内存容量方面应该是GB,支持的单条最大容量是16GB和8GB(Westemre-EP/Nehalem-EP)

    然后和上面那点略有关系的是……IOH/5520芯片组的PCI-E虽然提供了36 Lanes,但是总带宽大约是在15~16GB/s上,也就是128Gbps,略不足俩所谓的80G端口

    最后一点是在说“天河一号”采用了国产处理器“飞腾”的时候……什么叫做“微处理器内核设计”啊……不知所云……

  5. Lucifer 于 2010-11-14 9:11 下午

    喔……还有一点,对于Xeon X5670来说,它支持三通道6DIMM运行在DDR3-1333上,Xeon 55xx只能运行在DDR3-1066,这一点是这两代处理器的区别

  6. Lucifer 于 2010-11-14 9:36 下午

    再看了看看……160Gbps的是双向带宽,那么5520的16GB/s单向带宽倒是没什么问题……

    继续分析:其实观察可以得出,两种计算节点的左边那块互联板是一样的,都是4个接口(就是中间黄,两边黑的那组),估算每组接口是一个PCIE 2.0 x8,每两个连接一块双Xeon主板(主板剩余的PCIE x16大概是连接一块GPU,还剩下的PCIE x4连接一块intel 82576网卡,就是白色散热片覆盖的IOH的下面那个裸核心芯片)

    从图片上看,互联节点上下两块芯片肯定是NRC或者MPI NIC,只是不知道是一种还是两种,需要看到的是,这块互联板只有最左边一组接口

  7. i,Claud - 日记:关于天河一号 于 2010-11-15 12:36 上午

    [...] 天河一号顺利地成为Top 1,在弯曲评论上,陈首席转发了一些看着很过瘾的内部结构图。 [...]

  8. YAcc 于 2010-11-15 5:36 上午

    首席,发财难啊!我们正在准备用科大天河一号用的IB交换机,测过他们的那个神器IB卡,上边连个了大白导线,估计板画错了,后来补上的,用的是以色列的芯片,实测性能37GB/s。他们准备把卡卖给中石油,单价好几W,人家中石油不傻,网上同样性能的卡报价不到8k,发横财是很难的啊。只能用以色列人家原版的驱动,不能支持最新版本内核,害的我们系统得移植到低版本的内核上。

  9. EX8216 于 2010-11-15 5:47 上午

    请首席更新图片,桥片和NIC的位置都标注错了:)FT1000采用的是HT实现4 chips fullmesh 互连接,4个chip的8x PCIExpress2.0等效组成2个16x PCIExpress2.0. NIC在哪里?
    看FT1000计算节点就清楚了,2片带铝散热器的NIC在左下脚位置,完成2组16x的PCIExpress2.0转私有协议上交换网。X5670计算节点只是增加了QPI转PCIExpress2.0的北桥芯片实现对外的互连。问几个问题:GPU板如何接入系统?首席说的塑料封装的芯片是啥作用?FT1000计算节点为什么只能扩展到2048路

  10. EX8216 于 2010-11-15 5:57 上午

    学校设计的单板比不上华为中兴评审制度,也没有工艺结构器件等领域的专家把关,所以有飞线正常,能正常工作就不错了,而且估计是为了省钱不想改板了。请支持大宋的自主设计。另外,如果是天河能放在政府采购网上中石油不买也得买!看来科大的驱动设计能力要加强。

  11. YAcc 于 2010-11-15 7:21 上午

    莫非EX8216是国防科大毕业的?内心上来说,还是比较支持中石油买科大设备的,中石油也需要国产的高端设备来满足他们勘测数据处理需求,再说这点钱对于中石油来说也是九牛一毛。真正能用到实际当中东西才能发挥他的价值,甚至于说才能继续发展。什么排名,数字都是浮云。科大有那么好的技术,还应加强市场推广,创造价值,造福于民啊。军队单位做市场?貌似机制体制上有待更进一步探索,不过这次天河一号好像是浪潮合作研发的,这对于研究和市场,军队与民用,学校与企业之间又不愧是一次很好的结合啊。

  12. somebodyinchina 于 2010-11-15 8:01 上午

    支持国产跟接受低质产品不能是一回事,否则咱们会被支持个没完。作个原型系统或是实验系统飞个线是可以接受的,当商品卖就不好说了。
    IB在石油领域还是有市场的,接触过的几个物探都有使用IB网络的想法,但实际上基于性能要求的不多,多是为了好报项目。

  13. somebodyinchina 于 2010-11-15 8:06 上午

    石油计算可以说是典型的数据处理型的,大的数据吞是关键,使用IB这种低时延的传输技术,相比10GE技术来说,可以说没有什么优势,看看TOP500计算机系统使用的传输技术就明白了,GE/10GE占了70%,IB更适合使用MPI的场合。

  14. somebodyinchina 于 2010-11-15 8:11 上午

    大宋每年超算的市场估计在40亿两左右,基本上都是靠朝庭活的,让报告有写头比实用性可能更重要,没个翰林什么的支持是不行的

  15. 陈怀临 于 2010-11-15 2:04 下午

    Lucifier可真牛,对Intel的roadmap很熟悉。1333 vs 1066的细节都能tell。我以为3个DIMM也就1066了。。。佩服。

  16. org 于 2010-11-15 5:19 下午

    中国的超算中心的利用率不足5%, 就是那纳税人的钱在冲脸面! 可悲!

  17. Lucifer 于 2010-11-15 9:05 下午

    呵,咱对首席也是很仰慕的,可惜一直无缘得见

  18. 陈怀临 于 2010-11-15 10:22 下午

    把图片更新了一下。把IOH和ICH的错误改正了。。。得,现在找不到NIC了:-)。对外接口应该是那两个黑黄相间的光接口。光接口中间的那个就是NIC芯片。

  19. sponge 于 2010-11-16 6:34 下午

    可靠性太差,面子工程阿

  20. aaron.chen 于 2010-11-29 3:28 上午

    Lucifer 真人

  21. IT168 于 2011-11-16 4:12 上午

    原文地址:http://server.it168.com/a2010/1027/1118/000001118952.shtml
    图注乃转载者后加

  22. Puppy 于 2011-11-16 4:01 下午

    了解了。

  23. oo 于 2011-11-21 6:48 上午

    org 于 2010-11-15 5:19 下午

    中国的超算中心的利用率不足5%, 就是那纳税人的钱在冲脸面! 可悲!

    ====================

    有这事?
    哪里的数据?
    一两年前看有报纸说上海超算中心的计算资源已经不能满足需求了,申请之后要等许久

  24. bbb 于 2011-11-21 11:10 下午

    国防科大肯定能找几个和首席水平相当的。不然太恐怖了。

  25. awei 于 2011-11-22 2:49 上午

    国防科大的组装技术已经赶超曙光了!

  26. tpstar 于 2011-11-24 11:55 下午

    我们现在就在卖这个infiniband互联交换机,
    有兴趣的访问www.galaxywind.com.