Nehalem-EX 英特尔下一代 8 核微处理器

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




每年初在旧金山召开的 ISSCC 是IC行业最为重要的会议之一,很多大学和研究机构都选择在此会议上公布有分量的研究成果,而诸大公司也习惯在此会议上透漏其最前沿芯片的一些细节。在处理器这个方向上,原本非常活跃的SUN, IBM, AMD今年都没有新的进展公布,只有Intel可以说是一支独秀。Intel提交了3篇论文,分别介绍研发当中的用于不同方向的 3 款新处理器,其中最引人注目的当属包含 8 颗微核用于高端服务器的 Nehalem-EX。

此次公布的Nehalem-EX采用 45 纳米工艺,所需的晶体管数达 23 亿,耗电量是 130W。和往年一样,Intel 非常小心地隐藏了绝大多数的技术细节,没有任何与性能相关的数据公布,甚至连处理器的主频都是一个未知数。不过从耗电量这个指标来看,Intel 在这个方面可以说是做得相当不错。作为比较,4 年前 Intel 单核的处理器耗电量已经在 130 W 附近了,如今变成 8 个核,居然还维持在了同样的水准。下面这幅图是 Intel 公布的 Nehalem-EX 芯片的版图示意:

8 个微核分布在芯片的左右两侧,中间两列是8个大的缓存单元,芯片上端是 Intel 最近强势推出的用于处理器互联的快速通道(QuickPath) 接口,芯片下端是两个用来连接内存的接口单元。用 Intel自己的话讲,Nehalem 系列的体系结构和此前的其他的 Intel 微处理器系列比,在架构上是一个革命性的突破:

  • 微处理器和内存控制单元的集成,此前 Intel 芯片组均采用分离的南北桥结构。
  • 微处理器内部微核与内存控制单元间的交叉互联 (CrossBar)。
  • 微处理器与微处理器之间的点对点互联。

下面这张图是 Nehalem 内部体系结构的示意:

将内存管理单元(Memory Controller) 和微处理器集成到同一个芯片上,从逻辑和技术发展的趋势上讲都是非常地理所当然。AMD早在2001年就做到了这一点,并推出了与之配套的 HyperTransport点对点的处理器互联技术。而Intel直到7年之后才迈出这一步。在这期间,AMD 对 Intel 处理器体系结构的嘲讽和诟病从来就没有停止过。然而凭借在财力,市场,资源,芯片加工等各方面的压倒性优势,Intel 稳稳地坚持着自己的技术路线。处理器体系结构的改变对 Intel 来讲关系太过巨大,Intel 宁可在其他方面增加投入来弥补体系结构上的不足。

象 Intel 这样的行业垄断型的巨头对技术路线和市场时机的把握有时真的是很让人难以琢磨。

Nehalem-EX 包含有 8 颗微核,单从数量上来讲并不算是很惊人。在嵌入式微处理器的领域,Cavium Networks 2004 年就推出过含 16 颗 MIPS 微核的微处理器,主要用于数据通讯。2008 年 Cisco 自己研发的网络路由芯片 QuantumFlow 含有 40 颗的微核。而最近频频在媒体上上曝光的初创公司Tilera 开发的处理器包含的微核数更是高达 64 颗。但这些芯片都只是针对某个特定的领域,然而 Intel 需要考虑的是一个通用的微处理器的体系结构,一个能够运行各种应用程序,有合适的性价比,能够在5-10年内不会过时,可以有灵活的高低配置,能够稳定地支撑起数亿的芯片出货量而且绝对不容许失败的体系结构。

这个结构是这样的:

可以看到,Nehalem-EX 的最高配置是 4 芯 32 核。每一颗 Nehalem-EX 芯片都与其他 3 颗芯由QuickPath 点对点相联。这在最大的程度上保证了芯片之间的通讯带宽。然而这种体系结构的缺陷也是非常明显:最多 4 芯,完全都没有加入第 5 颗 Nehalem-EX 的位置了。如果 QuickPath 协议的设计中包含有交换 (switch)的机制,那么 Nehalem-EX 芯片就不必象图中所示的两两互联,而是可以都连到交换机上,在交换机的体系下实现 5 芯,10 芯的配置都应该是可行的。当然,这就变成完全不同的一个体系结构了。无庸置疑,Intel 在敲定图中的体系结构前一定是经过了无数的论证,这个简单的示意图或许是数十数百顶级工程师无数心血的结晶。

(3个打分, 平均:5.00 / 5)

雁过留声

“Nehalem-EX 英特尔下一代 8 核微处理器”有32个回复

  1. 陈怀临 于 2009-03-22 4:00 下午

    相当的好。是的,Nehalem微结构的成功是Intel的最重要的一步,在下一代服务器市场。否则可真的是逆潮流而动了。反思过去,我们也可以看出,一旦一个公司的技术方向出现偏差,拧回到正确路线上来所要付出的代价和成本是非常大的。

  2. alex 于 2009-03-22 6:55 下午

    Nehalem-EX的架构QuickPath是参考了IBM的Power cpu的架构。

  3. 老韩 于 2009-03-22 10:54 下午

    Intel的这个东西是根据应用模型变化而设计的,今后是I/O的天下,运算单元再强也只能是次要因素

  4. softmaster 于 2009-03-23 5:09 上午

    将内存控制器集成到通用CPU里面,主板的北桥芯片就没有存在的必要了。看来将南北桥芯片集成在一起是大势所趋。

  5. alex 于 2009-03-23 7:38 上午

    SUN的T2 Plus处理器做java和web服务性能稳定且好。不同的处理器架构在具体应用是有优势的。

  6. 陈怀临 于 2009-03-23 9:18 上午

    当得知IBM有可能买断SUN的时候,我第一个问题就是SUN的芯片业务是不是就要被砍了?我估计凶多吉少。Solaris估计也不灵。也就Java业务能保住?

  7. Cracked 于 2009-03-23 9:24 下午

    陈怀临什么时候能做中国做个类似ARM MIPS的芯片啊?

  8. 老韩 于 2009-03-23 10:57 下午

    7楼同志,已经有龙芯了……

  9. aaa 于 2009-03-24 1:56 上午

    测试下B老大的网站:alert(“Ha Ha Ha”);

  10. aaa 于 2009-03-24 1:58 上午

    龙芯很牛

  11. 陈怀临 于 2009-03-24 5:31 上午

    在Nehalem里,同学们一定要非常注意一点:DDR3的内存控制器。这一点是非常重要的,对于Intel而言。。。。。。例如,DDR3能运行在1066,1333,.。。或2000上。这其实是Nehalem的非常重要的一环。

  12. 老韩 于 2009-03-24 6:32 上午

    刚刚评估完Nehalem-EX的服务器,双路,一共8个core,16个SMT,很奇怪,双路比单路提升非常有限,是不是和新的QP互联结构有关?

  13. 老韩 于 2009-03-24 6:33 上午

    刚评估完双路Nehalem-EX的服务器,比单路性能提升有限,是不是QP互联架构导致的?

  14. asic 于 2009-03-25 3:56 上午

    这个DDR3 controller设计不亚于一个处理器了.

  15. karfield 于 2009-03-25 8:46 上午

    这就是最前沿的CPU商业化设计吗?离我心目中的概念差太远了。说白了至今为止主流的并行处理器设计都是以CPU为核心的,为了挑战物理极限不断压缩芯片面积,虽然内部的缓存有所增加,但是从总体架构上还未逃脱以计算为中心的思维模式,就好象搞实验物理的,总是偏执于实验证明,why not be more artistic? 难道研究计算科学的搞到现在还没有一点层次上的提高吗?所有的计算都是需要围绕数据结构本身的!
    我想给大家有这样一种映像:内存如同是细胞里的水,水质相对越多,细胞就越活跃;一个细胞看似透明,但内部却又很多结构,小到矿物质结晶,达到细胞核、线粒体…,这些结构的存在使得细胞更加功能化,在回到计算科学,我们上层应用一直强调对象化,对象这个词如果放到哲学显微镜下解析就是结构+内存,对象是有时间维的,每时每刻的存在意味着计算,安静时它就呆在内存里,活跃时它就会使用计算资源。当然,我这里将的不是仿生学,我想说这是我对这个计算世界的感悟。在切换一下别的视角,我很不赞同”CPU”这一说法,传统的计算机理论总是把CPU与内存分开,所谓冯诺依曼结构,其实试问现有的计算体系真的把硅片上资源充分利用到极致了吗?虽然制造工艺不断创新,但是架构上用的还是老一套而已,所以我不为某款什么几核CPU诞生而尖叫,我不是小女生:)
    什么才算真正使硅片利用达到极致呢?撇开制造工艺不说,我们来当回梦想家吧?上面说了所有计算化解到底都是面向数据本身,(这里虽然说Object-Oriented近些年不怎们流行了,但我还是要用OO),用程序上的说法可以理解为对象,对,就算简单的再不能简单的数据也可以说成是平坦简单的对象,这里我想升华一下对象的概念,我想说对象不仅存在与内存里,对象还存在与结构中,这些结构需要用逻辑来解析它,这就需要计算,请大家不要任务计算资源就是CPU了,我讨厌central这样的说法,计算最好是分布的,虽然在一张平面硅片上面总会有地方是计算层次比较集中的,有些地方几乎不是用来执行计算的而是纯粹的记忆体,但是不想传统的计算体系,硬生生的把记忆体与计算划分为内存体系和CPU,要知道,我们为了实现高性能计算,需要消耗多少总线升级来提升内存与CPU之间的数据通信,很多还未某种总线传输率能达到G级或者T级而乐此不必呢~ 我们中国五千年文明留给我们有一种宝贵财富叫做和,万事总不能走极端路线,总是有适度原则;这里计算就应该是有阶梯的,也就是要把传统的计算进行分布化,让硅片的每一寸存在都有计算的价值。
    按照这样的思维,我想了很多原型,我似乎找到一种使命感:)(说这话好冷,不过今天看见说某款处理器这样那样的,打算把淤积在心里的郁闷泄点出来)

  16. 陈怀临 于 2009-03-25 9:28 上午

    想法甚好。请抄送中国科学院计算所李国杰所长,并认真研究和落实。–陈首席。

  17. 高飞 于 2009-03-25 10:57 上午

    建议:还需把想法细化并合理阐述,以及理解冯诺依曼结构。–高飞

  18. 潜龙 于 2009-03-25 1:10 下午

    有想法是好的,拿着不成熟想法去骗人钱财是坏的,Karfield还没到这个程度吧。

  19. 高飞 于 2009-03-25 3:24 下午

    同意潜龙兄的意见。修改了16楼,不必抄送第三方了。

  20. ndkk 于 2009-03-25 4:12 下午

    看楼上的关于存储以及计算单元的评论很像是说人脑?

  21. 陈怀临 于 2009-03-25 7:34 下午

    其实Karfiled老师的想法是对的–和谐的思想可以应用在任何地方。Berkeley的IRAM项目其实就是有点这个意思。很久没有track Patterson的IRAM了。好像还是7,8年经常看他们的paper. 今天karfiled老师的发言让我想起了IRAM。有兴趣的读者可以参阅:
    http://iram.cs.berkeley.edu/overview.html

  22. alex 于 2009-03-25 11:08 下午

    同问12楼老韩,双核比单核提升有限,是不是SMT的技术还不过关?

  23. karfield 于 2009-03-26 4:01 上午

    人脑是一个很好的模型,虽然我们对人脑的认知还是微不足道,但是人脑真的是很有架构性的事物:人脑的计算最重要的部分是在大脑皮层,里面都是脑蛋白,也就是通信结构;大脑皮层的细胞组成都是一样的,但是大脑皮层的功能是分区块的,比如视觉区域、语言区、行为区等等;为了更多的计算支持,大脑皮层的沟回越多,面积也越大,计算资源就越多;大脑内部的通信也很有意思,我不懂脑科学,但计算单元间的通信并非是全映射,即不是网状的,脑内部有胼胝体,可以说是通信枢纽,但是并非所有通信都要进过这个结构,通信是分级别的,根据计算区域的不同,通信范围和级别都不同,计算跨度越大,可能需要调配的资源就越多…;再想想,大脑意识是跟物质区域是分开的,着告诉我们要实现特定的逻辑,不需要特定的结构;昨天我提到对象是什么,对象当然有它自己的结构和特征,这些都可以基于相同的结构来实现(题外话,很多ASIC芯片设计真是劳民伤财,成本风险都很高;不过改天大家见到一款芯片,上面可以轻松实现很多ASIC功能的就像跑一个简单程序的时候大家不要见怪哦)。意识是什么?一个大的想法往往都有很多细的结构来支撑,比如一件很自然的事,有些是潜意识的有些是你自己需要注意一点的,那些潜意识的东西可以看作是ASIC,即自主运行的,提供完好的接口和服务,那些你要注意的部分,是要经过稍微耗资源的思维运算的,一句话,一个大的意识内部里面有许多底层意识组成的,与我们的计算科学结合一下就是,一个大的对象内部由许多底层对象组成;大家是否认为并行计算的主体就是Process Elements本身?我觉得计算的主体就是对象本身,在传统的计算体系里,它会借助cpu或者asic等其他来通信,但是不觉得这本身是一件极耗资源的是吗?即对象间的数据一定要从不同硬件结构间绕来绕去才能达到彼岸。我们为什么为了对象主体间的通信非得要加一些认为的屏障?所以…你可能会疑惑我具体在说什么,我也是在想啊,怎样合适恰如其分的去表达,现在我只想说,我在做一个container,一个容纳对象本体的container、精心设计布局合理的container,而已:)
    昨天我说话太唐突了,年轻气盛对不起!陈老师推荐的iram是个很好的东西,我在想为何大家不搞个好一点的论坛来好好研究一些有价值的东西(比如iram、mit raw…)呢?

  24. 陈怀临 于 2009-03-26 5:54 上午

    谢谢卡尔。域。中国计算机界有了您这样勤于思考和敢于思考的年轻人,就有了希望。

  25. 高飞 于 2009-03-26 9:54 上午

    可能是我不自觉的做类比,karfield考虑的这个container,本质上就是要提供“通信机制”的最有效的替代品,通过合理的布局和设计?愿闻其详。

  26. 老韩 于 2009-03-28 8:04 上午

    不是,首先更正我测的是EP,其次我这次搭建测试环境可能有问题,最近正在查。SMT很强,以前用i7搭平台测过,尤其对于非计算密集型的应用来说。问陈老师,SMT是不是和QFP核内的硬件线程很相似?

  27. 陈怀临 于 2009-03-30 2:01 下午

    SMT技术属于硬件多线程调度的一种。其并列的概念是FMT,CMT等。可以听一下我的一个录音
    ”陈怀临时间–浅谈多核多线程技术:ILP vs. TLP“。
    里面介绍了一下这方面的东西。

  28. ihahe 于 2009-04-01 10:04 下午

    1、我个人认为CPU的方案长期来看不可取,要全面的均衡的分布式计算。不一定要把所有的计算负担全部放再CPU中,就如同人和动物,有大脑,但是也有其他的处理机制,比如脊椎控制的下意识行为。现在的体系架构并没有考虑到这些应用细节。

    2、现有的架构不具有足够的弹性。比如应付突发任务的时候,容易塞车。缺乏足够的宽容度来实现更灵活的安排,虽然Nehalem也在开始考虑解决这个问题,还是不够的。

    3、CPU的方式无法实现资源的充分利用,会有很多等待和浪费,反而不利于数据处理和传输,还没有设计出一个充分灵活而且有效的系统符合整个人和数据互动的规律的模型。

    一管之见

  29. 陈怀临 于 2009-04-02 8:42 上午

    在工程和科学研究方面,能够量化的分析是非常重要的。例如,我思考了4,5年,关于一个问题: NP=P?
    我的想法是:图灵机的理论计算模型应该被推广到非惯性系下去思考。在惯性系下,NP!=P。但到了非惯性系下,NP=P。想法很cool,right?但不能量化或者公式推理出来,这就只能属于民科的范畴。我试图把洛伦兹变换和相对论的东西应用上去,但目前还是没有突破:-)。所以我的想法目前只能属于民科的境界。

    举个例子,以说明想法与民科和科学的区别:–)

  30. 陈怀临 于 2009-04-02 8:46 上午

    另外,IPV9的想法cool不cool。其实很cool。但属于民科。为什么?

    ×没有严格的学术论文。
    ×没有严肃的工业De Facto的应用。
    ×没有良好的IPV4和6的继承性。

  31. nobond 于 2009-06-28 8:31 上午

    iram跟patterson搞的其他项目来说,是不是就算失败的了?。比如sparc,mips, raid ….

  32. 陈怀临 于 2009-06-28 10:31 下午

    IRAM说失败为时过早。我个人感觉其中的许多Idea目前有流行或已经流行的趋势。当然,SPARC,MIPS,RAID太狠了。另外,Patterson得不到图灵奖满郁闷的。。。当然,对于他这种牛人,奖真是身外之物。