微处理器之王

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




每年八月在硅谷中心地带 Palt Alto 举办的 Hot Chips 会议都会吸引众多的关注,今年也不例外。而此次会议的最亮点毫无疑问地当属 IBM 的 Power7 微处理器。Power7 是 IBM 微处理器 Power 体系结构最新一代产品,距上一代 Power6 2006 年推出大概是历时 3 年,可以认为是集现代微处理器技术之大成,代表了 CPU 设计最前沿技术的顶峰杰作。

从物理性质来看,Power7 采用 45 nm SOI 工艺制程,包含有 8 个微核,集成晶体管数目达到 12 亿。

这其中 IBM 的独家秘笈是将 32MB的DRAM 作为缓存 (L3 Cache) 和微处理器集成在同一个芯片之中,而其他的业界巨头 Intel, SUN 基本上还是比较传统地采用 SRAM。 同 SRAM 相比,DRAM 基本单元只需要一个晶体管即可实现。在相同的面积下可以实现的缓存大小,DRAM 可以做到 SRAM 的 3 倍以上。但由于 DRAM 的制程和通常的逻辑电路的制程差别很大,在同一芯片上集成两者会有相当的难度。 IBM 在这个领域经营研发了十几年,这也才是第一次正式的将 DRAM 和 CPU 集成到了一起。值得一提的是 IBM Power CPU系列从来都是采用有别于通常 CMOS 制程的 SOI制程。IBM 在工艺制程上的投入和所达到的高度,基本上也是业界独一无二的。

Power7 中的每一颗微核都包含 12 个执行单元,可以同时运行 4 路线程。秉承经典的超级流水线(Superscale) 设计思路,IBM 在 Power7 的设计中让其流水线竭尽可能地发现和利用程序中的并行性。比较遗憾的是,由于芯片上微核数目的增加以及流水线复杂程度的增加,Power7 在主频上和 Power6 比有所放慢。 IBM 还没有最后确认 Power7 所能达到的最高主频,但业界普遍认为会在 4Ghz 左右,离 Power6 所取得 5Ghz 的记录可以认为是有相当的退步。不过这也反应了高端处理器设计的趋势,在追求并行的同时,主频上难免有所放弃。在设计思路上期待并行性和主频的平衡以达到总体性能的优化。

IBM Power 体系结构在 CPU 和外部海量内存之间的互连上也是有着独到之处,IBM 采用的互连节构类似于全缓冲 DIMM (Fully Bufferd DIMM),依靠外部的并串缓冲芯片联接多个内存频路,以高速串行通道提升内存频宽。Power7 包含两个内存控制器,每个内存控制器可以有效管理 4 路 DDR3 DIMM,内存和 CPU 之间的通讯频宽可以达到 100GB/s

在处理器之间的互连结构上,Power7 在体系结构上也代表了业界的最高水准。Power7 针对处理器互联专门设计的连接带宽高达 360 GB/s, 可以支持多达 32 颗微处理器。做为比较 Intel 年初公布的 Nehalem 的互联快速通道 (quick path) 可以达到 75 GB/s 的带宽,只有 Power7 的 五分之一。 除了物理带宽的考虑,当体系结构中包含 32 芯 256 核,如何保持所有微核以及内存之间信息的一致性 (Coherece) 成为体系结构中的一个重要课题。IBM 设计的一致性协议基于广播的原理(Broadcast),可以支持 256 核 20000 次的并行内存操作。

(3个打分, 平均:5.00 / 5)

雁过留声

“微处理器之王”有19个回复

  1. 陈怀临 于 2009-08-29 5:26 下午

    太漂亮了。我就喜欢看silicon的结构平面图。32M的DRAM在L3缓存。太可怕了。

  2. wj_hd 于 2009-08-29 7:19 下午

    真漂亮

  3. 陈怀临 于 2009-08-29 8:07 下午

    “IBM 设计的一致性协议基于广播的原理(Broadcast),可以支持 256 核 20000 次的并行内存操作。”

    通常,IBM的芯片会采用MESOI或其变种来解决cache coherency。教科书书上没听说过什么基于广播的协议。我来查一下背景材料。Stay tuned。

  4. oliver 于 2009-08-29 9:00 下午

    呵呵,巧了,去美国一下飞机就被拉到斯坦福去参加hotchip的会议。我没交钱,属于偷听。那天正好是最后一天,会议的内容是关于SUN的Rainbow Fall和IBM power7的。我真是个外行啊,那个32M的L3 cache我听了根本没感觉,现在看了这篇文章才知道。

  5. coder 于 2009-08-29 9:54 下午

    作者资料来自这个地方?http://www.edn.com/article/CA6686259.html ?

    这个里边说 “Anticipating this, IBM earlier developed a coherence protocol that combines two different mechanisms for broadcasting coherence information: one global, and one speculative and local to a cluster of four chips in the Power7 architecture. In order to use such an approach without simply stopping execution most of the time, the coherence resolution is non-blocking. Starke said that at a given moment, there can be up to about 20,000 coherent store operations in flight within a full-blown 256-core computing system.”

    另外作者那个图,一个大方块里边是4个小方块。每个小方块是一个CHIP,一个CHIP上边8个CORE。所以我猜测 combines two different mechanisms for broadcasting coherence information, 应该是 4个CHIP(CPU)中间 snooping protocol, 4个CHIP组成一个NODE,8个node中间 directory protocol. 这个…. 没什么特殊的地方。

  6. coder 于 2009-08-29 10:11 下午

    SGI Altix 4700 能扩展shared memory系统到1000个CORE 通过 NUMAlink Interconnect Fabric。 不过估计power7的全互联的 32 sockets的coherent control是整合到CHIP里边了。AMD早就说要弄 fully connected 的8 socket系统,不过不知道怎么样了。

  7. coder 于 2009-08-29 10:36 下午

    作者的这两句话好像有点矛盾吧…..”IBM 采用的互连节构类似于全缓冲 DIMM (Fully Bufferd DIMM),依靠外部的并串缓冲芯片联接多个内存频路,以高速串行通道提升内存频宽。” “Power7 包含两个内存控制器,每个内存控制器可以有效管理 4 路 DDR3 DIMM,内存和 CPU 之间的通讯频宽可以达到 100GB/s”

  8. coder 于 2009-08-29 10:39 下午

    http://www.edn.com/article/CA6686259.html 上边报道的是 “To this end, each controller has a 16-kByte rescheduling buffer in which to accumulate and reorder memory requests.” 羡慕oliver可以去hot-chip……

  9. coder 于 2009-08-29 10:49 下午

    一段好玩的对话。今年HOT CHIPS


    In addition, Jen-Hsun fielded a number of questions at the end of the keynote speech, including a query submitted by Professor David Patterson of UC Berkley. Patterson asked if the CEO would still partition the CPU and GPU into separate chips if he had to “do it all over again.”

    Huang answered that there were three primary constituents: programmers, OEMs/ODMs and chip designers. He explained that each had various requirements which made it difficult to “bet on” the integration of new and very rapidly developing architectures into one device. As such, separating the functions actually allowed each to develop at its own pace, while providing the flexibility to address multiple market opportunities.”

  10. nobond 于 2009-08-30 2:42 上午

    哪位老大,参加的ppt能不能发一份,今年的还没放到网站上来呢。
    nobond.yg@gmail.com

    Huang挺会打太极拳呀。总是不暴露自己的真实意图。 gp/cp 演进太快对N自己也没好处。 过早与其他大佬接火。 要是不演进对N倒是好处大大的。只不过天不随人愿那。

    陈首席 && 各位大侠,对于移动设备的gp/cp,合并,什么看法?

  11. nobond 于 2009-08-30 2:43 上午

    另外,有没有墙街的,n 的 telsa 不知道进机房了没?

  12. Nobody 于 2009-08-30 4:56 上午

    搞来玩玩多少钱?

    gp/cp合并趋势越来越明显,都是计算类型归一化的结果,processors好像是一个生命体,memory是最柔性的水,蛋白质等各种结构就像processor里面的各种运算部件,我相信一款好的处理器是平衡memory和运算逻辑的杰作,就像自然界里的各种生命体一样。

    有啥power7的资料能不发我一份?

  13. 李克 于 2009-08-30 5:48 下午

    IBM可以真正的大牛呀,一个小case,PC造就了微软和intel两个牛。微软这个没有创新技术的垃圾公司成牛,真让人郁闷
    不知道PPC7和其他多核CPU比怎么样?不仅是现在的能力,还有是否是比对手先进的架构能挺过更优良的演进动力。虽然PPC经常技术领先,但一路上总是是好是坏,磕磕绊绊的,我还是信IBM的实力,只有IBM坚持的事(不把它卖了),总是能做得很优秀

  14. 陈怀临 于 2009-08-30 9:08 下午

    超级流水线:Superpipeline。SuperScale是一个笔误?

  15. iverosnma 于 2009-08-30 9:25 下午

    没有想明白32MB的dram怎么集成到CPU里面~dram里面的那个电容那么好放进去吗?
    另外如果CPU主频是4G的话,L3的速度能到多少?一般L1同频?L2一半,dram能到1G?

  16. 陈怀临 于 2009-08-30 9:31 下午

    明天有时间一定打印些资料,好好阅读Power7的东西。太狠了。有查阅到好文献,link的读者一定要共享给大家。否则太不厚道了:-)

  17. coder 于 2009-08-31 1:01 上午

    memory & interconect controlelr太强大了,所以为了减少die size才采用的 dram的 cache?

  18. KISS 于 2009-08-31 4:47 上午

    1,eDRAM已经发展数代了,之前已经集成到PSP等游戏机SoC,以及BlueGene的主处理器中。
    2,比较一下POWER7和Intel的IPF,Xeon的die size和晶体管数目有点意思:
    Power7@45m: 8 core, 1.2 billion, 567 mm square
    Nehalem-EX@45nm: 8 core, 2.3 billion, 24M L3 cache, 大小未公布
    Tukwila@65nm: 4 core, ~2 billion, 712 mm square, 30M L3 cache
    3,I*M宣称的360GB/S SMP Bandwidth还得看具体是怎么计算得来的的,跟Int*l比也要算QPI link数目才有意义。75GB/S是3 link的版本?

    最好的参考资料是去看IBM R/D Journal-不过I*M缺钱,今年开始收费了 :)

    @coder:
    根据I*M,如果使用SRAM替代eDRAM的话,大小将膨胀到2.7 billion

  19. nobond 于 2009-09-01 10:59 上午

    superpipeline: 流水线变长了
    superscalar: 流水线变肥了