思科核心路由器CRS-1与SPP处理器的研究–物理交换卡(2)

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

CRS-1 LCC路由器物理交换卡(Fabric Card)的概念模型是一个基于Benes Network拓扑的3级交换网络。在物理实现上,交换卡是通过卡上的多个ASIC芯片来完成3个阶段,基于固定大小Cell单元的数据交换。下面是一些基本的数据。

对于16槽的LCC,其交换卡(S123)上含有:2个S1,2个S2和4个S3的ASIC芯片,完成1个交换平面的功能。

对于8槽的LCC,其交换卡(HS123)上含有:2个S1,2个S2和2个S3的ASIC芯片,完成2个交换平面的功能。

对于4槽的LCC,其交换卡(QS123)上含有:1个S1,1个S2和1个S3的ASIC芯片,完成1个交换平面的功能。

下图所示分别为相应的物理交换卡:

(1个打分, 平均:5.00 / 5)

美国康普SYSTIMAX iPatch智能基础架构解决方案评测报告

此文发于2009年1月。后期搜集到的反馈信息中,很多读者都建议应该有一个结合人体剖面背景的方案示意图,个人认为非常正确!遗憾。

原文发布于《计算机世界》

疼痛是生物的一种高级本能。它是一种示警信号,由遍布全身的神经系统汇总到大脑,提醒主体及时应变,以避免更大的内部病变或外部创伤。可惜0和1的世界中所有角色都是“无疼人”,只有人为地为产品加入自我监控与示警的特性,用户才有可能及时做出处理。与相对成熟的通信设备不同,布线系统加入自我监控与示警特性也就是近几年的事情。虽然在市场上可以看到形形色色的智能布线解决方案,但它们无论从功能特性还是实现机制来讲都有很大差异。在缺乏统一标准的情况下,评估产品的唯一准则就是对用户需求的满足度。本次我们就以美国康普推出SYSTIMAX iPatch智能基础架构解决方案为评测对象,重点考察一下它到底能为用户的管理工作提供哪些帮助。

  SYSTIMAX iPatch智能基础架构解决方案由机架管理器iPatch Rack Manager Plus、控制端软件iPatch System Manager及支持不同介质的智能配线架组成。机架管理器是整套解决方案的核心,在机架上占据了2U高度的空间。它的前面板处设有液晶屏与多组按键,可以进行简单的查询与设定工作。背板处提供了一个私有总线接口,用来连接需要监控的所有智能配线架。总线的安装非常简单,只需沿机架一侧将线缆固定即可,并未增加部署难度。该设备最多可对1个42U机架上的960个端口进行管理,如果仍不能满足实际需求,还可以利用级联口连接多个机架管理器。当监测到本地端口的任何状态变化时,机架管理器会通过内置的以太网接口及时发送到装有控制端软件的服务器上。由于在后端采用了标准的TCP/IP协议,用户的控管操作不再受部署形式与规模的限制,说得极端点,在中国也可以监控到美国机房的跳线变化。

  智能配线架则在传统配线架的基础上,增添了链路识别、状态监控等特性,并通过总线实时地向机架管理器进行反馈。与其它采用非标准跳线实现监测功能的产品不同,iPatch智能基础架构解决方案使用了标准RJ45接口的跳线。这是令我们非常满意的一个设计,至少用户不必再为跳线做额外的投资。端口内置探测装置是智能配线架的统一特性,当跳线插入或弹出时,探测装置的触发信息是定位的唯一要素。介质、接口类型与接口数量方面则完全不用担心,iPatch解决方案中提供了足够多的选择。如果有较长距离的光纤通路,用户甚至可以选择支持预端接线缆的型号。

  如果将机架管理器看作iPatch解决方案的大脑,总线自然就是中枢神经,智能配线架则充当着神经末梢的角色。只有这样健全的结构,才能实现自我监控与示警等特性。当跳线插入或弹出时,智能配线架可以感知到相应端口的状态变化,马上通过总线将这一信息发送至机架管理器。机架管理器保存着所有端口的状态与连接信息,可以明确知道是哪个“部位”有了哪种类型的“痛感”。虽然它不能像人脑一样做出下一步响应,却可以及时准确地以多种形式提醒管理员。另一方面,神经式的监控机制也让联动成为可能。我们尝试着拔掉一个已连接的跳线,液晶屏马上会提示某配线架的第几个端口被断开,以及它的对端是哪个配线架的第几个端口。如果将拔掉的跳线插入一个新的端口,则会显示检测到的新连接信息,同时更新内部数据库。值得一提的是,整套方案的硬件部分为“智能”所花费的能耗代价十分低廉,机架管理器仅采用一个12V小型变压器供电,非常绿色节能。

要将“神经末梢”的“痛感”传达给管理员,单纯地在机架管理器的液晶屏上进行本地提示是远远不够的,还必须借助控制端软件iPatch System Manager进行更多种类、更大范围的信息发布。这套客户端软件的设计思路颇具特色,我们更愿意将它定位为涵盖了布线系统监控功能的网管软件。在图形化界面里,用户可以根据物理位置及角色的不同,完整地还原真实的拓扑结构。具体到机架这一级别,甚至可以添加iPatch方案中的各类组件。除此之外,该软件还可以将数据中心内其他角色纳入控管范围,建立从物理层到网络层的路径对应关系,在一定程度上可以替代价格不菲的网管软件。

  iPatch System Manager本身对外提供的多种服务也非常实用。SNMP应该算是最重要的功能之一,通过这个接口,用户可以使用其它网管软件管理iPatch。当端口状态发生改变时,触发的示警信息也会通过SNMP协议同步发送至网管软件。Web服务又提供了一个最具通用性的信息获取方式,管理员可以随时随地用最熟悉的方式查看布线系统的各类状态信息。我们注意到一些非常人性化的细节,例如Web服务甚至为PDA屏幕提供了合适大小的页面,有效提高了管理员的工作效率。OPC则肯定会受到集成商的欢迎,iPatch智能布线系统可以利用这个接口融入楼控的整体解决方案,做到统一管理。

技术上的分析也许还不足以体现这套智能解决方案的优势,接下来的实际操作更能说明问题。我们模拟了一个数据中心部署调整时的行为,将服务器所连接的交换机进行切换。通常情况下,这需要管理员先查找到服务器与两台交换机在配线架上对应的端口,再到配线架前进行操作。待到操作的正确性经过验证后,才能更新原有配置文档。这个过程中,端口查找可能会浪费大量时间(笔者见过很多集成商为甲方交付的文档都是厚厚一本装订书);操作的正确性也难以保证,至少在出现误操作时没有及时的告警及验证方式。如果因此影响到核心业务,后果不堪设想。

而利用SYSTIMAX iPatch智能基础架构解决方案,一切都变得简单。我们的实际操作过程是:跳线在增加与删除时,机架管理器会显示该事件的物理位置,在iPatch System Manager中也会同步显示连接关系。如果跳线发生非指导性的改变,机架管理器的液晶屏上马上提示端口连接状态发生的变化。当管理员确认操作无误后,设备会自动更新原有数据库; iPatch System Manager也会同步收到任何拓扑更新的信息,不必再人为进行修改。

  对比一下两个工作流程,后者复杂程度大大简化,效果却更好。我们认为,这套解决方案的最大特点莫过于尽可能地减少了需要人工处理的部分,提高了管理员的工作效率。另一方面,每一步操作都会有提示,并且随时可以进行连接信息验证,操作准确性得以保证。对于这个简单操作来说,智能与非智能的差异可能还不明显;而对于数据中心维护、调整时真正的工作量与复杂度来说,SYSTIMAX iPatch智能基础架构解决方案带来的优势无疑会明显得多。

(1个打分, 平均:5.00 / 5)

思科核心路由器CRS-1与SPP处理器的研究–物理交换卡(1)

CRS-1交换矩阵(Switch Fabric),交换平面(Switch Plane),交换卡(Switch Fabric Card)之间的关系是一个从属关系。前面两个是逻辑实体。交换卡属于物理实体(实现)。

交换矩阵通过多个交换平面所组成。每个交换平面通过物理交换卡来实现。对于不同的CRS-1的LCC路由器,具体的数据关系如下:

16槽LCC:

交换矩阵::==8个交换平面

1个交换平面::==1个物理交换卡

【笔者注:16槽LCC配置8个交换卡槽。一个交换卡提供一个交换平面】

8槽LCC:

交换矩阵::==8个交换平面

1个物理交换卡::=2个交换平面

【笔者注:8槽LCC可配置4个交换卡槽。换言之,一个交换卡提供两个交换平面】

4槽LCC:

交换矩阵::==4个交换平面

1个物理交换卡::=1个交换平面

【笔者注:4槽LCC可配置4个交换卡槽。一个交换卡提供一个交换平面】

从上述数据读者可以得知。一个逻辑上的交换平面是通过一个(16LCC和4LCC)或者半个物理交换卡(8LCC)来实现的。

对于不同的LCC上的物理交换卡,其名称分别为:

16LCC:S123卡

8LCC: HS123卡

4LCC:QS123卡

CRS-1的交换不是一个全Cross-bar的结构,而是一个3级(Stage)Benes Network交换结构。关于Benes Network或者其更一般的交换结构拓扑Clos Network。简单而言,Close Network是一个通过3个参数(r,n,m)定义的一个3级交换拓扑,其3级结构分别为:输入(Ingress Stage),中间(Middle Stage)和输出(Engress Stage)。下图所示为一个通用的Cros网络拓扑模型:

其中,r是输入(Ingress Stage)部件的个数。n是每个输入部件的输入接口数目。m是每个输入部件的输出接口数目。在理解Cros拓扑结构时,读者要抓住一个非常重要的概念:对于整个拓扑结构中的每个子部件,其是一个Cross-bar。例如,对输入而已,是有r个n×m个Crossbar。因为是r个输入部件,输出是m个,因此,中间阶段一定是m个部件。为了形成cross-bar,很自然是r个输入,r个输出(除非做加速)。这也就是为什么中间阶段是m个r×r个Cross-bar。在最后的输出阶段(Engress Stage),系统是一个逆转过程,通过r个m×n的cross-bar完成系统最后的交换过程。

关于Cros(Benes)拓扑的算法细节和量化分析,读者可以参阅相关文献。总而言之,Cros网络最大的优点是:相对一个没有中间交换过程的Cross-bar结构,对于要实现一个n×n的全交换,Cros网络所需要的连接节点数目要小的多。

Benes交换拓扑是Cros交换拓扑的一个特例,m=n=2。也就是说,在Benes交换拓扑中,每个Ingress和Engress子部件都是一个 2×2的Cross-bar。读者要注意的是中间交换阶段(Middle Stage)是2个r×r的Crossbar。如果r是4,那就是2个4×4的crossbar。如果是16,那就是2个16×16的crossbar。下图所示为一个8×8的Benes交换拓扑。

读者请注意,笔者说的2个4×4 的Crossbar是Cros拓扑的概念。在上述图中,就是中间3个Stage,共12个2×2的Crossbar。上半部分的两行(6个2×2的crossbar)组成了一个4×4的Crossbar。下面两行(6个2×2的crossbar)组成了另外一个4×4的Crossbar。

CRS-1的物理交换卡就是基于上述结构,而通过物理卡上的多个ASIC芯片而实现的。

(1个打分, 平均:5.00 / 5)

刀光剑影,与Juniper面对面

很少见到Juniper的高层在媒体面前公开露面,所以这个访谈实在令人期待。借弯曲评论宝地与诸位分享,希望到时大家去问他个人仰马翻:)

请大家注意,虽然业内对Juniper重产品不重品牌和市场的看法很多,但这好像是首次从官方听到。所以,近期要密切注意juniper中国市场部的动向。

注:我不是CBSi的人。

附:CBSi刘克丽对话Juniper于肇烈 高端访谈解说词预热

2009年5月20日下午15:00-16:00,Juniper(瞻博)网络公司大中国区副总裁于肇烈将做客由CBSi授权媒体总编刘克丽主持的ZDNET(至顶网)《跨国企业在中国》高端在线访谈视频大联播节目,届时少不了你来我往的短兵相接,不乏针锋相对的智慧博弈,请广大网友朋友带上你的问题,共同期待即将到来的高端对话。先奉上克丽的高端访谈解说词预热。敬请期待!

克丽解说词全文:

十年我中华大千世界改天换地感天动地
中国网友手机用户GDP居世界增长第一

十年所有网络设备厂商生死两茫茫
有线互联无线互联高端终端费思量

有的泡沫破产有的摘牌有的投奔新东家
有的合并有的发家有的转型有的浪淘沙

看从企业网转运营商再转家用网成全线
望从运营商光纤网转向企业网成熟时机

观如今企业应用好比当年省级运营功夫
望网络安全产品市场杀入春秋战国时代

瞻博网异军突起13年整了全年营收35亿美刀
运营商六成企业网速占4成进军安全领域无疑

说自己操作系统模块化领先各路英雄十三载
但原先不知重产品轻品牌吃大亏自己才明白

品牌投入时尚商标设计发布还要等多久
究竟无线互联怎搞定能否决战后09年

5月20日下午3:30—4:30分
CBSi(中国)共邀14家主流媒体

86家分站45家行业网站联合共邀
瞻搏网络副总裁于肇烈做客
CBSi(中国)直播大联播

巅峰对话风云问答总裁会客室里
IT名人面对面针锋对阵短兵相接

传闻于肇烈台湾出生没进过演播室早早做准备
八卦刘克丽无缘网络后台技术背景只三番试水

据说于肇烈嘉宾平日里认真练就走路功不含糊
但愿刘克丽主持每天负重草上飞能够勉强应对

望各位网络设备高手达人届时问得人仰马翻
盼众网友们前来上网助战考问嘉宾不见不散

直播地址:http://net.zdnet.com.cn/network_security_zone/2009/0515/1368798.shtml

(1个打分, 平均:5.00 / 5)

现金为王的时代

现在已经很少听到人们提起次贷危机了,大概已经接受了危机变成了衰退的现实。也很少有人质疑这次衰退的深度和广度。克莱斯勒的倒闭了,GM不断需要政府输血,日本出口已经下降了一半,中国政府的万亿救助计划,都说明了衰退又深又广。

以高新技术著称的硅谷又如何呢?太阳(Sun)刚被甲骨文(Oracle)收购,本来也是苟延残喘,现在更是难以支撑了。连太阳都撑不下去,那些初创公司呢?根据这篇文章内容显示,各类投资人也都勒紧裤腰带,IPO也遥遥无期,初创公司的出路可能只有被那些现金充足的大公司购买一条。极少数的公司因为自身产品的优势可能能得到大公司的青睐,但是大多数小公司只有关门大吉。即使能被大公司收购,价钱也会被压的很低。谁让自己活不下去呢?可能有些显得不公平,不过估价曲线向来都不是直线。这是一个现金为王的时代,是买方市场的时代。

其实每次经济危机,都伴随着一轮兼并浪潮。经济危机过去之后,大公司会更强大。当然,也会有更多的小公司又会雨后春笋般的冒出来。继续寻找那万分之一的变大的机会。

(2个打分, 平均:4.50 / 5)

从谷歌的“问题曲线”说到Twitter

image

      Google(谷歌)记录全球亿万用户的搜索关键词和模式,由此可以进行海量数据分析,得出很多有意思甚至有价值的曲线图表。不过,如果就像理发师,给全村人理发了,谁给理发师来剃头?上周谷歌的服务器事故就回答了这个问题。

      2009年5月14日周四,谷歌服务出现了大面积的瘫痪——从gmail到搜索,从Google Reader到Youtube,从图像搜索到Google Analytics,都几乎无法访问。谷歌自己承认,当天影响全球服务的当机事件开始于美东时间上午10点45分,两小时后,大约在美东时间下午12点20分恢复正常。而对这次事件的关注则来自全球网民,从美国大陆,到遥远的中国,澳大利亚和法国。

      对这次事件的分析,显然从谷歌搜索是拿不到了。如果读者访问Twitscoop,您可以找到一幅描述在Twitter网站上搜索“gmail”或者“google”的查询记录。本文的题图就是5月14日美东时间下午1点左右得到的曲线。显然,大量用户来Twitter搜索关于google的消息,因为谷歌当机了,随着谷歌业务的恢复,查询也恢复正常。这幅图是不是象一条巨大的鲸鱼?可以说,谷歌这个搜索巨人可以从Twitter拿到自己的“当机鲸鱼图”。Twitter的火爆程度可见一斑。弯曲评论追踪Twitter已久,相关报道见后。

      谷歌最后给出的解释是,当天路由出了点差错,很多web业务被路由到亚洲再绕回美国,导致其全球服务出现了大面积的业务阻塞,大约14%的用户受到了影响。

      显然,想象一下您从纽约登上去旧金山的飞机,最后发现自己降落在香港,还要转机回旧金山,您有多郁闷?

弯曲评论有关Twitter的报道:

谷歌神奇不再的原因

Twitter拒绝Facebook5亿美金收购的原因

社交网络简史

Twitter:“想吃饭的踢(T)我”

(2个打分, 平均:5.00 / 5)

美国搜人网站 Intelius宣布收购搜人引擎Spock和Ucloo

位于美国西雅图地区的美国搜人网站Intelius 日前成功收购了加州搜人引擎Spock.com. Spock于2007年创立于Silicon Valley的搜人引擎公司, 之前曾得到过八百万美元的风险投资。 在美国是很有知名度的搜人引擎, 其Alexa 全球排名保持在1700名左右. 在Silicon Valley的办公室大约有25名员工, Intelius计划扩大为200名员工左右. 目前未宣布收购的总价格。

同时, Intelius公司为进入亚州市场, 成功收购了优库公司(Ucloo.com). Ucloo公司目前是最大, 也最具影响力的中文搜人引擎, 于2005年创立于上海, 其出现曾经引起中国网名极大的震憾, 并引起隐私权的大范围讨论, 但在其后的发展未受影响并越做越大, 成为亚州地区最大的搜人引擎而最终引起美国同类的关注。未曾有报道Ucloo接受过风险投资。宣布收购的总价格在四千八百万美元左右。Ucloo.com其位于张江的办公室在收购后有望更大发展。

Intelius公司是一家专门出售个人背景信息的公司——公司自诩是一家“信息商业公司”。Intelius据称有很多企业客户,可以帮人做背景调查、身份保护等等。该公司2003年1月成立后,成长迅速,目前已经有超过四百万用户购买了其产品。公司的营收也从2004年的1810万美元迅速增长到2007年的8850万美元,2007年的利润(EBITDA)竟然达到2250万美元。2008年第一季度,公司的营收达到3180万美元;2008年全年营收达到1.3亿美元。Intelius公司的增长速度和盈利使得他们有把握上市(IPO)。著名投行德意志银行(Deutsche Bank)和瑞银(UBS)承销他们的IPO,2008年1月10日承销商已经向联邦证券委员会(SEC)递交了第一次报告。

Intelius公司的创立者和首席执行官是Naveen Jain (原上市公司Infospace的创立者和首席执行官), Spock公司的创立者是Jaideep Singh(首席执行官, 资深投资人)和Jay Bhatti , Ucloo优库的创立者和首席执行官是丁国平(华裔美国人,原美国互联网上市公司首席技术官)。

 

弯曲评论相关报道:

Intelius:是生财有道,还是诈骗成性?

Intelius 公司正式递交上市申请,融资可达1.43亿美元

(2个打分, 平均:4.50 / 5)

俞敏洪在北京大学2008年开学典礼上的演讲辞

【编者注:讲的非常好。我个人吸收的观点:人的一生一要有理想;二要有良心;做事要坚持;可以偏移,但主脉络是朝着理想的方向持续的发展。】

各位同学、各位领导:

大家上午好!(掌声)

非常高兴许校长给我这么崇高的荣誉,谈一谈我在北大的体会。(掌声)

可以说,北大是改变了我一生的地方,是提升了我自己的地方,使我从一个农村孩子最后走向了世界的地方。毫不夸张地说,没有北大,肯定就没有我 的今天。北大给我留下了一连串美好的回忆,大概也留下了一连串的痛苦。正是在美好和痛苦中间,在挫折、挣扎和进步中间,最后找到了自我,开始为自己、为家 庭、为社会能做一点事情。

学生生活是非常美好的,有很多美好的回忆。我还记得我们班有一个男生,每天都在女生的宿舍楼下拉小提琴,(笑声)希望能够引起女生的注意,结 果后来被女生扔了水瓶子。我还记得我自己为了吸引女生的注意,每到寒假和暑假都帮着女生扛包。(笑声、掌声)后来我发现那个女生有男朋友,(笑声)我就问 她为什么还要让我扛包,她说为了让男朋友休息一下(笑声、掌声)。我也记得刚进北大的时候我不会讲普通话,全班同学第一次开班会的时候互相介绍,我站起来 自我介绍了一番,结果我们的班长站起来跟我说:”俞敏洪你能不能不讲日语?”(笑声)我后来用了整整一年时间,拿着收音机在北大的树林中模仿广播台的播 音,但是到今天普通话还依然讲得不好。

人的进步可能是一辈子的事情。在北大是我们生活的一个开始,而不是结束。有很多事情特别让人感动。比如说,我们很有幸见过朱光潜教授。在他最 后的日子里,是我们班的同学每天轮流推着轮椅在北大里陪他一起散步。(掌声)每当我推着轮椅的时候,我心中就充满了对朱光潜教授的崇拜,一种神圣感油然而 生。所以,我在大学看书最多的领域是美学。因为他写了一本《西方美学史》,是我进大学以后读的第二本书。

为什么是第二本呢?因为第一本是这样来的,我进北大以后走进宿舍,我有个同学已经在宿舍。那个同学躺在床上看一本书,叫做《第三帝国的兴 亡》。所以我就问了他一句话,我说:”在大学还要读这种书吗?”他把书从眼睛上拿开,看了我一眼,没理我,继续读他的书。这一眼一直留在我心中。我知道进 了北大不仅仅是来学专业的,要读大量大量的书。你才能够有资格把自己叫做北大的学生。(掌声)所以我在北大读的第一本书就是《第三帝国的兴亡》,而且读了 三遍。后来我就去找这个同学,我说:”咱们聊聊《第三帝国的兴亡》”,他说:”我已经忘了。”(笑声)

我也记得我的导师李赋宁教授,原来是北大英语系的主任,他给我们上《新概念英语》第四册的时候,每次都把板书写得非常的完整,非常的美丽。永 远都是从黑板的左上角写起,等到下课铃响起的时候,刚好写到右下角结束。(掌声)我还记得我的英国文学史的老师罗经国教授,我在北大最后一年由于心情不 好,导致考试不及格。我找到罗教授说:”这门课如果我不及格就毕不了业。”,罗教授说:”我可以给你一个及格的分数,但是请你记住了,未来你一定要做出值 得我给你分数的事业。”(掌声)所以,北大老师的宽容、学识、奔放、自由,让我们真正能够成为北大的学生,真正能够得到北大的精神。当我听说许智宏校长对 学生唱《隐形的翅膀》的时候,我打开视频,感动得热泪盈眶。因为我觉得北大的校长就应该是这样的。(掌声)
阅读全文»

(6个打分, 平均:4.83 / 5)

龙芯CPU(11)–龙芯3号多核处理器设计及其挑战

【编者注:这是胡伟武2007年9的一个技术报告,关于龙芯3的设计目标。有兴趣的读者可以发现,龙芯3号将把和谐的精神也融入到CPU设计当中。例如,“。。。龙芯3号一个目标要建设和谐的计算和谐,一个机机和谐,就是兼容问题。另外一个是人机和谐,。。。”】

很荣幸在计算机事业五十周年的时候有机会做这个报告,我的报告题目是龙芯3号多核处理器设计及其挑战。我报告还是涉及多核处理器的发展趋势,龙芯处理器总体情况,主要介绍一下龙芯3号设计目标和设计挑战。

让我说多核处理器的发展趋势,就一句话,就是处理器结构正处在转折期,主频至上的时代已经结束,摩尔定律关于主频部分的终结,晶体管资源还在增加,性能功耗比继性能价格比后成为重要的设计指标,网络和媒体的普及导致计算机应用的变化,处理器经历了简单到复杂,再到简单和复杂的过程。
摩尔定律不是性能定律,以前摩尔定律被赋予很多性能的含义,每1.5年性能提高一倍,摩尔定律真正含义是关于晶体管数目和晶体管开关速度的定律。Intel是摩尔定律的倡导者,根据Intel自己的资料,从486到奔四性能提高了 75倍,有13倍来自工艺的改进,6倍是来自结构的改进。每代微处理器最大的片内时钟频率是上代产品的两倍,其中1.4倍来源于器件按比例缩小,另外 1.4倍来源于流水级中逻辑门数目的减少,如180纳米时是32个等效F04的延迟,而在130纳米时只有26个F04的延迟。
晶体管反转延迟按比例缩小导致性能同步增长的趋势在130纳米时已经终止了。工作电压一直往下降也降不下去了。连线延迟的影响,随着工艺的提高线变短了,但也变细了,全局的连线延迟还会不断增长,因为芯片的面积不变。30纳秒一个时钟信号只能穿过芯片的1%面积。结构上不可能无限制细分流水线,一般认为不可能小于 10-12F04,考虑latch的延迟,只剩下6-9级F04。另外封装有一个散热的问题。
晶体管还会增加,我们如何有效利用晶体管资源还是一个问题,晶体管增加,性能增加只是晶体管数目增长的平方根。由于晶体管特性,工作电压不会随着工艺进步而降低,加上频率提高,导致功耗密度随集成度增加而增加。所以Intel暂时推不出4GHz以上的P4。功耗和电压是平方的关系,随着阏值电压的降低,漏电功能大大降低。现在比较强调均衡的性能,比如SPEC CPU2000对顶点,浮点,I/O,大内存有很高的要求。未来需要以低能耗处理大量的服务,比如以网络媒体为代表的流的处理,基于Web的大量请求快速处理。
当业务需求需要结构相应改变,比如如何加速单个控制流的执行过程,现在是比较复杂的硬件,导致了巨大的能耗,未来有可能天然并行的 Web服务器,可以通过简单的并行来加速执行过程。以前开始都是体系结构,缩小运算与访存的差距,过去用缓存,面积和能耗的增长,未来流数据只用一次,所以缓存就不管用。现在很多处理器缓存占8、90%的面积。以前说CPU,什么叫CPU,就是运算器加控制器就是CPU,现在一大部分内存在里面。应用的多样性意味着芯片的多样性,一方面芯片的各种应用需要比较专用的芯片,芯片的制造成本不断提高,一个芯片要求延长生命周期把钱赚回来。

处理器结构的周期60年来,以20年周期经历一个简单复杂、简单、复杂的螺旋上升过程。早期的处理器结构由于工艺技术的限制,不可能做得很复杂,一般都是串行执行。后来随着工艺技术的发展,处理器结构变得复杂,流水线技术、动态调度技术、缓存技术,像量机技术被广泛使用,后来推出RISC技术,但后来超流水做得越来越复杂,现在处理器最多可以执行200多条指令,乱序的执行。所以现在又到了一个复杂到一定程度复杂不下去的时候。
所以看到传统高主频的复杂设计遇到越来越严重的障碍,需要探索新的结构技术来在简化结构设计的前提下充分利用摩尔定律提供片内晶体管,以进一步提高处理器的功能和性能。多核结构是符合发展趋势的。但多核有两个基本的科学问题,计算机理论基础是图灵机,物理上要求并行的,到编程模式必须是串行的,冯诺依曼结构是顺序地址空间和分布式存储期不匹配,理论模型和物理实现的剪刀差越来越厉害,这问题本质上是应用和结构,以及结构和物理之间的差距问题,需要新的模型以及结构的创新工作。我们要应用新模型,或者物理上新器件。如果这两个做不到就架一座桥,把串行结构并行到物理层做。
过去Closing the Gap有很多复杂的例子,操作系统可以支持虚地址空间,另外80年代多发射的结构得以实现。另外晶体管增加也使得缓存层次得以实现,一定情况下可以提高速度。另外缓存一致性协议,可以在分布存储情况下提供统一的编程空间。我们也有不成功的例子,并行计算机发展几十年,目前一种并行处理结构解决困扰并行处理二十多年的并行程序编程困难,串行程序加速小的问题。
第二部分介绍一下龙芯系列处理器,从2002年做了龙芯1号开始,之后做了龙芯2号,用我话说三级条的跨越。龙芯2B性能是龙芯1号3倍,龙芯2C性能是龙芯2部的3倍,之后发展了龙芯3号。现在1号面向IP和嵌入式应用,龙芯2 号面向高端的应用,龙芯3号面向多内容的服务器应用。龙芯2E是64位四发射,乱序执行。现在量产已经基本完成,现在已经向市场批量供应。龙芯2E结构特征,在单处理器结构方面比较到位,不会比国际最好的差。我们有功耗的测试,750M,连CPU、北桥和内存条加一起只有7.5W。这是SPEC定点分支。这是国际组织找了几十个程序,世界上做通用CPU厂家公用的。媒体播放我们觉得750M比P4要快一些。我们部分应用,包括笔记本,一些处理平台,低成本电脑、笔记本,我现在用的就是一家台湾公司做的笔记本。
我理想是“十一五”期间建设在片内攒系统的海龙大厦。龙芯3号多核处理器,我们阶段目标,第一个阶段到2008年希望做8-16核,到2010年做32 – 64核。龙芯3号结构特征是多平台并行虚拟机结构,可伸缩大CMP结构。我们现在面临功耗的问题,应用变化等很多转折点,要抓住这个转折点,完全可以利用后发优势取得突破。主频的游戏已经结束了,并行结构我们很有机会。我们设计的方法很正确,有10个核以上,国外厂商更多运用静态电路,不可能把10个 100W核集成在一起,不可能为了追求极端的性能牺牲功耗。
龙芯3号一个目标要建设和谐的计算和谐,一个机机和谐,就是兼容问题。另外一个是人机和谐,串行程序并行化的问题。要做一个多平台并行虚拟机结构,我们有一个理想,使所有可执行文件可以在龙芯上正确快速地运行。一方面通过进程级虚拟机实现Linux上的X86兼容。另外把虚拟机自动并行化,现在虚拟机使用的热点刚开始软件解释执行,觉得这是热点就开始翻译,翻译以后觉得还是热点就开始并行优化,我们可以更进一步,就是进行并行的优化。这样使得串行程序在多核上可以并行。我们看到以前有一个指令性结构把硬件软件切分开来,以后写一个二进制代码你感觉不到,彻底打破了软硬件的界限。让软硬件大协同实现一个大虚拟机。

阅读全文»

(1个打分, 平均:5.00 / 5)

龙芯CPU(10)–龙芯1号处理器结构设计

这篇文章发表在中国计算机学报2003年4月。是关于龙芯1号的微结构。作者是胡伟武和当年的体系结构实验室主任,也是胡伟武的师兄唐志敏。
读者可以通过阅读龙芯1号和2号微结构的文章,从而可以更好的把握龙芯结构的演变过程。另外,唐志敏已经离开计算所。。。。。。

文章摘要如下:

龙芯1 号处理器结构设计
胡伟武唐志敏
(中国科学院计算技术研究所北京100080)
收稿日期:2002-12-12;修改稿收到日期:2003-02-20. 本课题得到国家“八六三”高技术研究发展计划软硬件主题重点项目“高性能通用CPU
设计”(2001AA111100)及中国科学院知识创新工程方向性项目(KGCX2-109)资助. 胡伟武,男,博士,研究员,博士生导师,主要研究方向为
高性能计算机系统结构、并行处理、VLSI 设计等. 唐志敏,男,博士,研究员,博士生导师,主要研究方向为高性能计算机系统结构、MPP 系统、数字信号处理等.摘要首先介绍了龙芯处理器的研制背景及其技术路线. 分析了龙芯处理器坚持高性能定位、稳扎稳打的设计策略以及兼容主流处理器的原因,并指出在目前达到与国外相同主频的客观条件不具备的情况下,应走通过优化处理器结构来提高性能的道路,并以处理器结构技术的突破为根本. 然后介绍了龙芯1 号处理器的体系结构设计,包括基于操作队列复用的动态流水线设计、在乱序执行的情况下实现精确例外处理、取指与转移控制结构、存储管理以及针对缓冲区溢出攻击的系统安全设计等等. 测试表明龙芯1 号处理器的指令流水线效率高,其安全设计能有效防范使用缓冲区溢出技术进行的网络攻击. 但龙芯1 号处理器的Cache 过小,在组织方式上也有待改进.

【全文下载:龙芯1号处理器结构设计

(1个打分, 平均:5.00 / 5)