ARM与x86:Eagle’s coming!

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




【陈怀临注:通过读者推荐,看到了来自Intel的sailing关于ARM的系列文章。非常的优秀。现转载若干以飨读者。Eagle是ARM Cortex-A15的codename。是目前ARM阵容里最强悍的CPU,是A9的下一代。估计会在2012年有芯片。。。】 

EAGLE is Coming!

ARM的崛起使Intel陷入长考。 

PC领域尚无需担忧,这个领域尚属Wintel帝国。帝国的成员历经过多次优胜劣汰,Wintel制定的多数策略都能得到这些成员的支持,更重要的是使他们最终受益。Intel从PC领域切走了最大的一块蛋糕,却是众望所归,这与Intel在这个领域的付出成正比。PC帝国偶尔出现的纰漏,总能够被Intel及时发现并加以修补。进入PC帝国的大门被Windows系统牢牢把持,ARM阵营虽多次试探,最终仍被拒之门外。 

在手机领域,Intel还不是局中人。XScale架构之后,世上没有任何一款手机正在使用Intel制造的处理器。在这个领域,手机厂商,代工厂商,芯片提供商,操作系统提供商,相互交融,有合作也有竞争,尚未形成动态平衡。Nokia仍然暂居最大的手机市场份额,却在智能手机输给了Apple和Andriod。 

Apple执着的封闭式系统在这个领域取得了意想不到的成功。Google的加入使得本已混乱的市场,变得更加难以琢磨。Microsoft在这个市场中屡战屡败依然不离不弃。2010年10月11日Microsoft正式发布了Windows Phone7[105],Google Android 2.3即将到来的谣言也在漫天飞舞。 

乱哄哄你方唱罢我登场,却是处理器领域之外的故事。 

在手机处理器领域,ARM是最大的收益者。无论是Nokia,Apple,HTC还是Motorola都在使用ARM处理器。Intel对这个市场垂涎三尺,也无可奈何。已经发布的Atom系列处理器,无论是Silverthorn(Atom Z5xx)系列,Diamondville(Atom N2xx,2XX和3XX),Pineview(Atom N4xx, D4xx和D5xx)距离手机领域都很遥远。 

Intel近期发布的代号为Lincroft的Atom Z6xx系列处理器,却应者聊聊。基于这个内核的Moorestown平台,难显Intel昔日的振臂一呼。尚未有任何一个手机厂商宣布使用这个平台生产手机。正在业界似乎还在等待Intel即将在2011年推出的Medfield平台,这个平台将沿用Atom Z6xx内核,采用32nm工艺,进一步提高性能功耗比[107]。Intel却很难选择继续等待,因为Intel的后院再一次燃起了熊熊烈火。 

借助ARM处理器,Apple的iPad已率先向Intel发难。这也标志着手机领域和PC领域融合的开始。融合的进度虽然缓慢,绝大多数参与者却已先知先觉。Intel选择在手机领域进行反击,经过一系列的合作与收购,进军手机领域一支的先头部队已悄然组建。 

Intel的这一系列动作,不足以改变手机领域的格局,却足以使其震惊。这个领域的既得利益者很难接收这位巨人。Intel的能力不容置疑,胃口却太大了些。过小的手机上放满了运营商和生产厂商的Logo,实在无法再加入一个Intel inside。 

Intel并不在乎这些阻力。在短时间内,Intel的Atom处理器依然无法在性能功耗比上压倒Cortex处理器,对于Intel这确实是一个长期而艰巨的任务。这一些并不值得担忧。性能功耗比这个词汇是ARM发明的,主要目的是为了掩盖ARM处理器当时过于低下的性能。 

这个词汇无法阻碍Intel进军手机领域的步伐。Intel很清楚只要Atom处理器能够在功耗上满足手机领域的需求,就可以利用自身强大的Ecosystem逐步切入手机领域。加以时日增强对手机领域的理解,Intel完全可以在手机领域向ARM阵营发起强有力的挑战。 

Cortex系列处理器的横空出世打乱了Intel的部署。Intel在最不应该失败,也最失败不起的性能上,莫名其妙地输给了ARM。从Cortex A9起,ARM处理器实现了对Atom内核性能上的反超[i],而Cortex A15完成了对Atom内核的全面超越。虽然目前尚未有基于Cortex A15内核的处理器,但这只是时间问题。 

Intel的时间所剩无几。如果在Moorestown/Medfield平台上使用的处理器内核性能没有明显超过Cortex系列处理器。Intel近期的所有努力将付之东流。在今后两到三年左右的时间,Intel必须发布一个全新的Atom内核[ii],在性能上需要明显高于Cortex A15内核。Intel必须在本质上提高Atom内核的性能,这需要一个激进的变革,而不是渐变。Intel可以暂时依靠并不完美的Atom内核在商务上取得成功,但是商业与技术不会长久背离。Cortex系列处理器的出现敲响了Intel的警钟。 

第一颗Cortex内核于2004年10月19日发布[108],这个内核并不是Cortex-A8,而是Cortex-M3。Cortex A8内核于2005年10月4日发布[109]。随后ARM在2006年5月15日发布了Cortex-R4内核[110]。至此Cortex内核完成了在嵌入式领域的布局。Cortex M,R和A内核都使用ARMv7的指令集,应用于嵌入式的不同领域。M内核[iii]应用在一些对成本较为敏感的微控制器领域,R内核主要应用在实时控制领域,而A内核用于手机与PC领域。 

ARM11之后,ARM处理器内核不再以ARM作为前缀[iv]。ARM公司取消这个前缀完全是出于迷信的考虑[v]。在ARM的历史上,所有以偶数结尾的ARM内核,包括ARM2,6,8和10,都没有获得成功。ARM不想使用12,而13似乎更加糟糕,于是换了一个新名字。ARM这个单词并没有在Cortex系列中消失,Cortex的三大系列M-R-A,合起来就是ARM。 

更换前缀后的内核,已焕然一新。Cortex A8内核的DMIPS指标达到了2.0DMIPS/MHz,相比ARM11取得了巨大的进步。Cortex A8处理器在大幅提高性能的同时依然保持了低功耗优势。一个含有32KB的指令和数据Cache,256KB的L2 Cache的Cortex A8,在使用600MHz的时钟频率时,总功耗仅为300mW。 

Cortex A8内核不再使用简单的Enhanced DSP指令,而是引入了NEON部件。NEON的功能与Intel的SSE类似,用于支持SIMD类指令。Cortex A8是第一颗引入Superscaler技术的ARM处理器。在每个时钟内,Cortex A8可以并行发射两条指令[111]。出于降低功耗的考虑,Cortex A8内核依然使用了静态调度的流水线和顺序执行方式。 

为了进一步提高时钟频率,Cortex A8内核使用了13级的整型指令流水线和10级NEON指令流水线,流水线级数高于ARM11内核的8级。流水线级数的增加有利于处理器主频的提高,却对指令分支预测的成功率提出了更高的要求。 

Cortex A8在ARM11的基础上,将BTB使用的Entry数目从64增加到512,同时设置了GHB(Global History Buffer)和RS(Return Stack)部件。这些措施极大提高了指令分支预测的成功率,从ARM11的88%提高到Cortex A8的95%[112]。 

Cortex A8在Cache的设计中,首次引入了Way-Prediction部件。在现代处理器中,Cache由多个Way组成,如8-way,16-way或者32-way。Way-Prediction部件的主要功能是预测当前Cache访问将使用哪个Way,从而可以暂时关闭不使用的Cache行,从而到达节电的目的。Intel从Pentium M处理器起使用了这种Cache访问方式,并一直应用到x86处理器的后续产品中。Atom处理器也可能使用了这种方式。 

与ARM11相比,Cortex A8内核在Cache Memory系统上,进行了较大的优化。Cortex A8内核访问L1 Cache只需要一个时钟,而ARM11需要使用两个。Cortex A8支持L2 Cache,大小为128KB~1MB,ARM11虽然也支持L2 Cache,却几乎没有被SoC厂商使用。Cortex A8可以使用64位或者128位总线连接外部设备,而ARM11只能使用64位总线。 

Cortex A8使用Architecture-Gating和Functional-Gating两种技术进一步降低功耗。所谓Architecture-Gating是指,处理器内核执行WFI(Wait for Interrutp)指令之后,将进入idle-loop模式。Cortex A8的Functional-Gating技术的本质是使用Clock-Gating,分离各个功能部件。当处理器运行运算时,与其不相关的功能部件,如Cache,指令队列,Write Buffer和NEON所使用的时钟可以临时关闭,以达到节电的目的。Clock-Gating技术的大规模使用使得Cortex A8内核获得了300mw/MHz的功耗频率比[111]。 

在前45nm时代,Clock-Gating技术也已经在x86处理器上得到了广泛的使用,Cortex A8之所以获得了高于x86处理器的性能功耗比的重要原因,一是使用了更少的晶体管,二是因为没有象x86处理器那样去挑战处理器运算能力的极限。 

在Cortex A8之后,ARM加快了处理器内核的更新速度,每3年就会推出一个A系列处理器内核。这个速度远低于Intel的Tick-Tock。而对于人数不满两千,同时要兼顾Cortex R和M系列内核升级的ARM,已经是一个不小的奇迹。 

2007年10月3日,Cortex A9正式推出[113]。Cortex A9具有两个版本,一个是传统的单内核,另一个是MPCore,最高主频可达2.0GHz,最多支持4个内核。Cortex A9的整型运算的性能在Cortex A8的基础上提高了25%,达到了2.5DMIPS/MHz和2.9CM/MHz[43][114],恰好超过Atom处理器的2.4DMIPS/MHz和2.8CM/MHz[vi]。 

Cortex A9采用了更高的成产工艺,整型流水线的级数虽然只有8级[vii],时钟频率却高于Cortex A8。在Cortex A9中,ARM引入了高端处理器常用的乱序执行(Out-of-Order)和猜测执行(Speculative Execution)机制,进一步扩大了L2 Cache的容量(128KB~8MB),可使用Snooping和Directory两种机制实现Cache的一致性。 

与Cortex A8相同,Cortex A9依然使用MESI模型进行Cache的共享一致性,但是对MESI模型进行了许多优化,支持更多的Cache-to-Cache传送方式,进一步减少了处理器对主存储器的访问[114][115]。 

这些更新极大地提高了Cortex A9的性能。从Cortex A9开始,ARM处理器正式完成了对Intel Atom内核性能上的超越,Cortex A9在性能上超越的不仅是Atom,还包括同时代用于嵌入式系统的处理器,如PowerPC和MIPS处理器[115]。ARM依靠性能功耗比的日子已一去不复还。但是Cortex A9距离Intel的主流处理器,Nehalem,Westmere和Sandy Bridge处理器依然有不小的差距。 

ARM并没有停下脚步,2010年9月8日,代号为Eagle的Cortex A15正式发布[116]。对于Intel而言,狼外婆终于来了。Cortex A15内核并不是Cortex A9的继承者,事实上Cortex A9虽然与Cortex A8的功能较为相近,也不是完全的继承关系。 

与Intel频繁更新处理器内核的策略并不相同,ARM的内核具有更长的生命期。1993年发布的ARM7内核仍然在被大规模使用。依次估计,Cortex A8,A9和A15这三颗内核所关注的领域虽然有所重复,这三颗内核仍将在相当长的一段时间里并存,深入到嵌入式应用的各类高端领域。 

Cortex A15已经拥有足够的性能,具备进军了Laptop和Server领域的能力。在未来的3到5年里,Cortex A9和Cortex A15组成的ARM处理器阵营将与Intel的Atom,Sandy Bridge处理器展开全方位的较量。 

Cortex A15最高主频将达到2.5GHz,最多可支持8个内核,采用Superscaler流水线技术,具有1TB的物理地址空间,支持虚拟化技术,乱序执行,寄存器重命名,并行设置了多个执行单元。几乎在现代高端处理器技术中涉及的技术都可以在这颗芯片中找到。 

Cortex A15内核的性能将在Cortex A9的基础上继续提高50%。ARM公司尚未公开Cortex A15的功耗指标,但是可以预计在性能大幅提高的前提下,Cortex A15的功耗也必随之大幅提高。 

首先是处理器主频的提高。Cortex A15使用了超长的24级流水线结构[viii],前12级用于指令预取,译码与分发,这部分指令流水是顺序执行的;后3~12级用于指令的执行,在这一阶段,指令可以乱序执行[117][118]。 

超长的流水线结构利于处理器主频的提高,但是与Cortex A8相比,在使用相同的工艺时Cortex A15的主频仅仅提高了10%[117],以此推测Cortex A15使用的超长流水线,可能为了降低功耗。 

Cortex A15另外40%的性能提高,需要流水线其他部件和Cache Memory系统的协调工作。Cortex A15必须极大增强分支指令的预测命中率。过长的流水线也意味着巨大的流水线中断惩罚。Cortex A15分支预测部件的工作原理与Cortex A8/9基本相同,只是将BTB的条目增加到了2K个,而且采用2-way组相连结构。 

Cortex A15的GHB由Taken阵列,Not Taken阵列和Seletor阵列[ix]组成。Cortex A15对非直接跳转指令进行了一些优化,设置了256个Entry的BTB阵列,每一个Entry可以存放多个目标地址。除此之外Cortex A15还引入了64个Entry全互连结构的MicroBTB。Cortex A15的这些功能增强进一步提高了转移指令的命中率,但是与Nehalem处理器的分支预测单元相比仍有不小的差距[117]。 

Cortex A15的流水线与Cortex A8的基本结构较为类似,由Fetch,Decode,Rename,Dispatch,Neon/VFP,Interger Issue和Load/Store Issue等部件组成,只是在Cortex A15中,指令需要更多的时钟节拍才能通过这些部件[117]。例如在Cortex A15中,Fetch单元由5级组成,Decode单元由3级组成[117]。 

Cortex A15的指令预取总线的宽度为128b,一次可以预取4~8条指令,与Cortex A9相比,提高了一倍。Decode部件一次可以译码3条指令,而Cortex A9一次可以译码2条指令。 

Cortex A15引入了Micro-Ops的概念。Micro-Ops指令与x86的μops指令表现形式不同,但是基本想法较为类似。在x86处理器中,指令译码单元将复杂的CISC指令转换为等长的μops指令,再进入指令流水线中运行;而在Cortex A15中,指令译码单元将RISC指令进一步细分为Micro-Ops,以充分利用指令流水线中的多个并发执行单元。Cortex A15的Decode部件在一个时钟节拍内可以同时译码3条指令,并将这3条指令转化为5个micro-ops[117]。 

Cortex A15进一步扩大了Interger Issue部件的发射能力,从Cortex A9的3条提高到4条。Cortex A15分离了Cortex A9的Load/Store Issue部件,具有独立的Load和Store部件,并开始在流水线使用128位宽的数据总线。 

Cortex A15还使用了32个Entry的Loop Buffer,当处理器执行一段较长的循环指令时,指令流水线将直接从Loop Buffer中获得Micro-Ops,而无需使用Fetch和Decode部件。此时这两个部件可以暂时关闭,以节约功耗。Intel也在Core 2架构中使用了相同的机制[119]。 

从体系结构的角度上看,Cortex A15相对与ARM处理器自身而言是一次飞跃,但是与Intel的Nehalem/Sandy Bridge处理器相比,仍处于入门阶段。上文所提到的在Cortex A15中出现的技术,对于Nehalem处理器而言都是微不足道,更不用说是Sandy Bridge处理器。但是Cortex A8/9+Cortex A15依然可以凭借性能功耗比向Atom+Nehalem/Sandy Bridge处理器发起强有力的冲击。 

制约x86处理器继续向前发展的主要原因有两个。一是Intel已经处于处理器体系结构的最前沿,每前进一步的代价过于巨大,Cortex A15虽然取得了巨大进步,但是仍处于高端处理器的入门阶段,仍有巨大的潜力。更重要的是,跟随者可以以更小的代价获得最新的技术。另外一个原因就是Intel的向前兼容策略,在某种程度上束缚了Intel前进的步伐。 

ARM公司一再强调Cortex系列处理器的性能功耗比的优势,也在不自觉地掩饰ARM处理器相对较为简单的架构。从处理器体系结构本身出发,决定一个处理器功耗的最直接的要素依然是使用的晶体管数目。x86系列处理器功耗较高的主要原因是集成了较多的晶体管。在ARM处理器中使用的低功耗技术没有哪一个是独门绝技,这些技术也出现在x86系列的处理器中,包括Atom处理器。 

从低功耗的设计理论上讲,一个处理器的功耗主要由动态功耗和静态功耗两部分组成。而对于CMOS电路,动态功耗主要由开关功耗和短路功耗两部分组成,公式描述如下。 

Pdyn = (CL × Ptrans × Vdd2 × fclock) + (tsc × Vdd × Ipeak × fclock) [120] 

其中CL指电路总负载电容,Ptrans指工作电路所占的比例,Vdd指工作电压,fclock指工作频率。而tsc指PMOS和NMOS同时打开的时间,在多数情况之下tsc的值较小,因此上述公司的后半段几乎可以忽略不计,因此Pdyn ≈ (CL × Ptrans × Vdd2 × fclock)。 

其中CL参数由电路设计的复杂度决定,这也是x86处理器和ARM处理器目前功耗差距的最重要来源。Ptrans参数由处理器设计的电源管理策略决定,这也引出了另外一个低功耗设计的热点问题,处理器的低功耗设计更应侧重于在不同的场景之下,功耗的使用情况,而不应关注平均值。放之四海而皆准的电源管理最优策略并不存在,没有人能做到又让马儿跑,又让马儿不吃草。 

Vdd参数的降低可以有效的降低功耗,近些年Vdd的值在不断下降,从5.0V,3.3V,2.5V到1.2V和0.8V。Vdd的不断下降,导致Vt[x]也随之降低,不断降低的Vt最终导致Isub[xi]呈指数上升,反而极大了增加了静态功耗,这个现象在45nm及以下工艺的设计中更为凸现。fclock更似一面双刃剑。频率的提升有利于性能的提高,却也极大提高了功耗。 

从CL和Ptrans两个指标上分析,不难发现ARM在CL层面上做得更好,更简练的设计决定了ARM处理器的低功耗。而在Ptrans层面上分析,x86更胜一筹,x86处理器在ACPI规范中定义了一系列处理器状态,运比ARM处理器定义的状态复杂。x86处理器获得了较低的Ptrans值,但也无法掩盖因为较高的CL而获得的总功耗。 

随着处理器制作工艺的不断前进,静态功耗所占的比例在不断地提高,这使得一些可以显著降低动态功耗,却提高了静态功耗的技术不再适用。静态功耗是指在晶体管处于上电状态时,晶体管的漏电流(Leakage)引发的功耗。漏电流主要由ISUB,IGATE,IGIDL和IREV组成。使用45nm工艺时的静态功耗是90nm工艺的6.5倍,使用32nm,22nm工艺时,静态功耗所占的比例呈指数上升[120]。 

这些变化使低功耗的设计从降低动态功耗逐步转移到降低静态功耗上,在管理策略上从Clock Gating逐步转移到Power Gating。在Cortex A8处理器中,ARM将Clock Gating技术发挥到了极致,而由于缺乏工艺上的领先,在Power Gating领域上落后于Intel。从纯技术的角度上看,无论在降低动态功耗还是静态功耗的领域上看,Intel都是领先的。Intel在工艺上领先的事实,也在一定程度上说明了从门级电路的实现上看,天下半导体厂商的合力尚不足与之抗衡。 

Intel却没能实现性能功耗比最优的处理器,这是技术之外的故事。在商业上,Intel一直坚持着向前兼容。多年以来Intel依靠向前兼容,战胜了一个又一个对手。向前兼容需要额外使用更多的晶体管数量,在服务器领域,因为保留向前兼容所浪费的晶体管并不是太大的问题,在手机领域却不容忽视。 

Pentium Pro处理器大约使用了30%的晶体管数目处理x86向前兼容,包括Microcode ROM,指令译码和控制逻辑[121],而Pentium Pro处理器一共使用了5.5M个晶体管数目[36]。但是不要认为x86处理器在处理向前兼容时仅仅需要使用1.65M颗晶体管。因为除了进行指令变化(Instruction Transforming)这段逻辑之外,随着L1指令Cache的增加,向前兼容所付出的代价也在等比例上升。更重要的是由于乱序存储器访问模型的出现,向前兼容需要付出更大的代价。 

Atom处理器在实现中使用了In-Order的流水线,并没有采用乱序执行的μops指令流水线,在很大程度上也在回避着因为向前兼容而带来的巨大惩罚[xii]。x86处理器继续背着向前兼容的大山,与针对性能功耗比进行了一轮又一轮优化的Cortex系列之间的竞争并不公平。 

对Intel更不公平的是其长期坚持的通用平台战略。因为Intel的努力,PC处理器更加标准,更加通用,更加廉价。通用平台使得Intel获得了巨大的成功,却在一定程度上阻碍了Intel进军嵌入式领域。 

嵌入式领域是一个备受Intel通用平台战略挤压的系统,通用处理器每进一步,嵌入式处理器便后退一步。嵌入式处理器在不断后退,不断细分的过程中,顽强地活了下来,更加根深蒂固地坚守了自己的阵地,回首却发现一直在前进的通用处理器x86,生活在最大孤岛中,被其包围得密不透风。这一次x86处理器需要从孤岛中游回彼岸,却无法使用ARM阵营的细分市场策略。 

Intel和ARM两个公司本身并不具备可比性。Intel自1992年起,一直在半导体厂商中排名第一,而ARM公司从来没有进入过半导体厂商的排名,甚至可以说ARM并不是一个半导体厂商,因为ARM没有生产过一颗商用处理器。Intel一年的销售额是几十个Billion,而ARM仅为几百个Million。Intel有7,8万名员工,而ARM仅有1700余名员工。 

虽然单独的ARM没有办法与Intel比较,但是ARM阵营所蕴含的能量却足以与Intel的x86阵营抗衡。在2009年排名TOP20的半导体厂商,除了Intel,AMD和Elpida之外,全部License了ARM内核。不仅如此ARM阵营还包括Apple,Microsoft和Google。诸多形态各异厂商的参与使ARM阵营更加立体化。 

在x86处理器阵营中,AMD近期很少有声音[xiii],VIA在持续的亏损,真正努力的只剩下Intel。在Intel的Ecosystem中,除了Intel和提供基础BOIS的厂商外,其他的OEM/ODM并没有在处理器体系结构方面给予Intel必要的帮助。有些OEM厂商更像是依托在x86处理器之上的寄生虫。 

严酷的外部环境使得Intel更加需要使用统一平台战略进入嵌入式市场,虽然这个策略与嵌入式系统要求的进一步定制,进一步细分的原则背道而驰。Intel不能在统一平台上有所动摇,目前以及在很远的将来,x86处理器阵营都无法向ARM处理器那样深入到嵌入式的每一个领域。多数嵌入式领域所提供的空间也无法容纳Intel这样的庞然大物。 

Intel的目标非常明晰,就是进军手机处理器。虽然ARM处理器在手机领域处于垄断地位,在技术上Intel也并非没有任何机会。与ARM处理器相比,Intel的Atom处理器性能功耗比相对较为落后,但这并不是Intel在技术上的最大劣势。从整型运算的角度上看,Cortex A9略高与Atom处理器,而Atom处理器在Cache memory的表现更优。内核上的相比,两者各有千秋。 

最使Intel尴尬的是,x86处理器并没有一个与AMBA总线类似的SoC平台总线,这是Intel进军嵌入式领域一个不小的障碍。Intel或者定义一条全新的SoC平台总线,或者集成AMBA总线。从加速推出产品的角度上,直接使用AMBA总线无疑是一条捷径。而世上没有捷径,从更长远的时间上看,借用AMBA总线,会使ARM阵营更加强大。最初的所谓捷径不过是为他人做的嫁衣裳。 

Intel却很难有其他选择。在x86处理器系统中广泛应用的PCIe总线,不能使用在SoC内部。这条总线的设计目标是作为局部总线,连接片外的外部设备。PCIe总线可以提供巨大的带宽,也带来了较大的传送延时。更为重要的是与基于AMBA总线的外部设备相比,实现基于PCIe总线的外部设计需要更多的资源,也因此带来了巨大的功耗。 

基于PCIe总线的低功耗设备,与基于AMBA总线的低功耗设备,在性能功耗比上没有可比性。AMBA总线是一个在SoC领域使用的事实上的标准。AMBA总线阵营的强大超乎多数人的想象。 

AMBA总线V1.0于1995年正式发布[122],用于SoC内部各个模块间的互联,支持多个主设备,支持芯片级别测试。AMBA V1.0定义了两条总线,ASB(Advanced System Bus)和APB(Advanced Peripheral Bus)。V1.0还定义了一个连接存储器的外部接口,这个外部接口还可以用做测试。 

ASB总线是一个快速总线接口,使用独立的地址数据总线,支持流水传送方式,支持多个主设备与从设备,采用集中译码和仲裁方式。ASB总线的主要作用是连接CPU,DMA引擎,内部存储器和一些快速外部设备。而APB总线连接一些慢速设备,APB是ASB的Secondary Bus,两者的关系如图4所示。 

 ARM与x86--EAGLE <wbr>is <wbr>Coming!
4 ASB与APB的组成结构[123] 

 从今天的技术上看,AMBA V1.0总线十分简陋,设计这样的总线标准甚至可以作为几个研究生的毕业论文。而AMBA总线是一个开放标准,使用AMBA总线用户不需支付任何费用[123]。开放的总线标准使AMBA总线迅速普及的同时,极易吸收整个半导体业界的成果。 

1999年AMBA总线更新到V2.0[124],增加了一个新的总线AHB(Advanced High-Performance Bus)。AHB取代了ASB在系统中的位置,并使ASB进一步下移,增加了Split传送方式进一步提高了存储器读的效率,总线宽度最高可达128位。 

2001年,ARM发布了AMBA V3.0总线规范,引入ATB(Advacned Trace Bus)和AXI(Advanced eXtensible Interface)总线。AXI总线的引入,使得AMBA总线迈向新的台阶,性能已经可以与IBM的CoreConnect抗衡[126]。 

AXI是一条现代总线。AXI总线分离了一个总线周期的地址阶段和数据阶段,更便于实现在现代总线中常用的Pipelining和Split技术。AXI总线进一步分离了总线通路,将AHB的单通路分解为Read Data,Read Address,Write Data,Write Address和Write Response共5个独立通路,进一步加速了对存储器的读写访问。 

AXI总线接口逻辑设计较为复杂,与AHB总线相比多使用了50%的资源。AXI的一次总线周期至少需要传送64字节的数据,而AHB总线是16字节,这也导致AXI总线的传送延时高于AHB总线[125]。AXI总线的目标不是用于替换AHB总线,事实上在一个SoC中,AXI总线和AHB依然并存,只是AXI总线更接近ARM内核,而AHB总线更贴近外部设备。 

AMBA总线阵营已经统治了整个嵌入式的平台总线,而且正在日益壮大。2010年3月8日,ARM正式推出AMBA V4.0总线,引入了QoS机制,进一步增强了多层结构,将AXI总线细分为AXI4,AXI-Lite和AXI-Stream[127]。 

AMBA总线标准提供的AXI,AHB,ASB,APB和ATB总线,不仅使用在ARM处理器系统中,MIPS和PowerPC处理器也开始使用AMBA总线。除了嵌入处理器之外,TI,Freescale的DSP也在使用AMBA总线。AMBA总线已经无孔不入,在整个嵌入式领域,没有可以向其挑战的对手[xiv]。 

面对ARM内核,Intel并不畏惧,面对AMBA总线阵营,Intel只能剩下无奈。可以预计在相当长的一段时间里,Intel无法推出一条能和AMBA总线抗衡的SoC平台总线。Intel只能暂时向AMBA总线示弱。Intel自身具有强大的图形处理芯片,却在Moorestown平台中不得已使用了PowerVR SGX 535[128][129]图形处理芯片。PowerVR SGX 535也是Apple A4,Samsung Hummingbird和TI的OMAP4处理器使用的图形处理芯片。 

基于低功耗的考虑,Intel依然需要依赖ARM阵营提供的外部设备。而如果最终的结局是Atom处理器依赖AMBA外设战胜了Cortex内核,Atom处理器也会被ARM阵营重新绑架。对于多数厂商,通过简单的系统集成,快速推出市场需要的产品是第一位的,而这些厂商却无法获得更高利润。 

ARM的廉价License策略实际上已经清楚地向Intel转告了一个事实,单纯依靠处理器内核无法在嵌入式领域取得暴利。而无法获取暴利的领域是不会有持续的资金注入。Intel并不会例外。 

也许Intel一直等待Medfield平台的成熟。但是不要给予这个平台太多的期望。Medfield,这颗Intel有史以来第一个基于Atom处理器单芯片解决方案[130],如果仅是将Moorestown平台的Lincroft处理器和Langwell和二为一,前景并不光明。Medfield平台所提供的外设,很难与ARM平台的外设抗衡,最多只是打个平手。 

在外部设备领域,ARM不是一个人在战斗,而是利用AMBA总线控制了整个半导体界。整个世界已有的用于手机的处理器平台都在使用基于AMBA总线的各类外设,而没有一个使用PCI/PCIe总线的外部设备。 

Intel的Medfield平台可能的优势依然是在处理器内核上全面战胜Cortex A9和A15。而这一切对于Atom Z6xx内核来说几乎是一件不可能完成的任务。可以预见,Medfield平台诞生后,依然与基于Cortex A9内核的手机平台旗鼓相当。而对于后入者,仅靠旗鼓相当,很难获取太多的市场份额。 

而在抛开技术之后,Intel所面临的处境更加艰难。Intel所主导的Wintel帝国统治IT世界已有多年,芸芸众生对Wintel帝国产生了严重的审美疲劳。Intel需要进入的手机领域,与其说被ARM把持,不如说被剩余的几乎所有半导体厂商把持。Intel动了ARM的奶酪也意味着动了全天下半导体厂商的奶酪。Intel的进军手机领域更像是一场大的赌博,没有人知道结局。可以肯定的是,Intel再放弃了XScale架构之后,不会轻易地放弃Atom架构。 

也许Intel需要急迫解决的并不仅是技术问题。与许多巨型公司相似,在更多时候,最大障碍不在颛臾而在萧墙之内。与不到2000员工的ARM相比,来自Intel内部的故事复杂得多,也深刻得多。 

多年以来,Intel在PC领域取得巨大成功的同时,也滋生了巨大的执拗。x86处理器之前取得的辉煌,使得改变成为Intel一个尽力回避的观念。Medfield平台的成功,对于Intel可能不是一件好事。也许Intel需要的是一场大的失败,因为使用失败统一内部意见往往比使用胜利容易得多。 

2011年,Intel将发布Medfield平台。ARM阵营也许依然会战胜Medfield平台。这仅是决战的开始。永远不要低估Intel这颗巨人的心。 


 

[i] 有关Atom处理器与Cortex A9的性能对比见ATOM的前生今世。 

[iii] M内核实际上不是ARM内核,而是16位的Thumb 2内核。 

[iv] 对我而言这是一件非常快乐的事情。从这时起,我再也不用写ARM公司的ARM7内核这样绕口的文字了。 

[v] 没有找到ARM的官方说法,所以没有列出参考文献。这个说法很可能是网上的谣言。

[vi] 我更相信这是Cortex A9处理器的预谋。Cortex A9可以超过的更多,不过ARM选择将更多的风头留给Cortex A15。 

[vii] 8级流水做到了2.0GHz,又是乱序,又是猜测访问,又是多发射,实在是佩服。 

[viii] 使用了这么长的流水线,却不是为了提高主频,想必是基于降低功耗的考虑。应该有些独特的设计,目前尚无找到详细描述。Cortex A15的这种做法有别于x86。 

[ix] 在多数处理器中,GHB具有4个状态Taken,Not Taken,Weekly Taken和Weekly Not Taken,Cortex A15将后两种状态合并。采用这种方法可以进一步减少晶体管数目,但其效果仍需观察,目前尚未找到采用这种方法的最终量化分析结果。 

[x] Vt指电压的门限值,用来识别0,1逻辑。 

[xi] Isub指亚域值漏电流,即从Drain经过弱反形层流向Source的电流。 

[xii] 随着纳米技术的不断向前发展,因为向前兼容所浪费的晶体管数目在整个Die中所占的比例在不断缩小。但是向前兼容为处理器的设计却造成了巨大的困难。因为照顾向前兼容,采用了非最优的设计而浪费的晶体管数目很难统计。 

[xiii] AMD近期发出的声音是加入Intel和Nokia主导的Meego阵营。AMD这种态度,在很大程度上是在向世界承认弱者的地位,和不争第一的雄心壮志。只希望在未来的几年,当Intel与ARM激战正酣时,AMD不要再去抄Intel的后路。 

[xiv] 从技术的角度上讲,x86处理器内部的系统总线和QPI互联机制依然比AMBA4复杂得多,这些机制仅使用在Intel的x86处理器中。 

(4个打分, 平均:4.75 / 5)

雁过留声

“ARM与x86:Eagle’s coming!”有74个回复

  1. 陈怀临 于 2010-11-26 10:49 上午

    A15整的有点像NetBurst了。。。有点悬。。。ARM要走高端路线,与Sandy Bridge拼,我估计至少再等10年。。。但10年也是一瞬间。。。

  2. 删吧 于 2010-11-26 12:23 下午

    纠正一下,TI的OMAP4系列里用的是PowerVR SGX540 而非535.

    Intel自己的图形芯片性能其实比不上PowerVR的SGX系列。在自己的芯片组里加powervr的芯片,这完全是个政治问题,不过看起来是个时间问题了。 Intel的graphic部门,非常不给力。

    Coretex就是瞎吹,tweak而已,跟atom没法比。大家用习惯了而已。 还有毕竟是授权模式,如果atom授权,那才是考验cortex的时候。 现在我觉得没啥可比性,大家各发各的财

  3. 陈怀临 于 2010-11-26 2:38 下午

    文章中“内核”的term应该是微结构的意思,或者说用微结构会更加precisely。

  4. shuyong 于 2010-11-26 7:39 下午

    其实Cortex与ATOM,既不是瞎吹,也不是瞎比。对厂商也就是功耗和性能的取舍了。

    用Cortex-A8 1GHZ,软件跑起来已经很流畅了。如果是Cortex-A9 1.5HZ,感觉就和PC没有两样了。一般移动办公,也就是上上网,看看小片。没事的时候给老板忽悠PPT。这些足够了。ATOM现在还需要考虑散热片的问题,机器是做不薄的了。

  5. 陈怀临 于 2010-11-26 8:41 下午

    ATOM的问题,从INTC内部的人透露:主要是Austin的一票人做的。而且是老印为主的一批人。Austin的队伍在Intel属于amateur的team。。。

  6. liang 于 2010-11-26 10:05 下午

    首席,是否评论cluster vliw chip,据说Sandy Bridge 是此架构,arm eagle是superscale 对 vliw intel,不考虑功耗,如何衡量?

  7. Freshtime» Blog Archive » [ARCH]ARM vs. Intel 于 2010-11-27 1:47 上午

    [...] 关于ARM和Atom的文章: http://www.tektalk.org/2010/11/26/eagles-coming-arm%E7%9A%84%E5%A4%9A%E6%A0%B8%E5%92%8C%E4%BC%97%E6%…原文在 http://blog.sina.com.cn/sailingxr I am 90 percent sure that the author of the blog is Wang [...]

  8. 看客 于 2010-11-27 2:21 上午

    此文信息量很足,但猜测稍微多了点,其实从技术角度进行客观比较即可。

    Intel多年都主攻高端的处理器,对低功耗设计及其相关的市场缺乏敏感不是偶然的。换作其他人处在那个时代条件,很可能走向Intel曾经走过的思维路径,因此绝非单纯Intel管理层出现了决策失误。

    Intel现在感觉到了低功耗产业链的巨大钱景了,学习这个市场规则,了解与之完美搭配的技术选择需要交学费是必然的。而这方面,恰恰是ARM浸泡多年的领域。时势造英雄,现在很多人都看到ARM如今的风光无限。但单看ARM微架构的进步就说会威胁Intel还有点早。

    在处理器领域,单纯的微架构只是很少的一部分而已,微结构其实80年代就很成熟了。真正的核心是工艺和制造,这种东西门槛太高,没法像微结构之类的玩意可以整个模拟器或者在纸上谈论,这恐怕才是Intel的底气所在。至于ARM,人不过是深刻理解了市场趋势合理运用了人家提供的技术罢了。

    这么说并不是说Intel就会永葆巨无霸,也不意味着INtel的Atom这个思路的产品一定会成功,这种事情谁都说不准,生意经的事情永远都是无常的。但从技术角度,Intel是一座巨大的冰山,看到水面上的一小部分千万别忽视了水下的庞大母体。

  9. 雁过留声 于 2010-11-27 4:52 上午

    不知道大家是否记得当前Netburst功耗太高,Intel遭到广泛批评和质疑。当时Intel以色列的专家搞了个Pentium-M Core,后续产品基本在这个技术上发展。可以肯定的说,嵌入式CPU Core是以色列人开发,然后由山姆大叔进行产品化。具体那个城市就不说了。

    现在很多基础的技术开发都在以色列。我一直在想,为什么他们这么点人能开发出这么牛的东西?我猜测:以色列有什么,只有一个内盖夫沙漠,天气炎热,资源太少了,所以只能买沙子。但是沙子到处都是,没有傻子会买它的沙子,只好将其转换成其他商品卖啊。天气炎热,只能功耗低,否则做实验都做不了。

    想Intel收购的TI,主要是以色列工程师。像什么光处理器,1000核处理器等早就有工程样品了。

  10. 雁过留声 于 2010-11-27 5:13 上午

    最近的留言好像专门攻击首席哦:)

    内心没这个意思和目的了,在技术能力,为人修养上,首席是咱们的偶像啊。我只是想尽量将最真实的信息提供给我们这个圈子的人。

    Intel最强的能力是学习和整合能力。当年RISC横空出世,无比强大,好像要将Intel(Intel总部一直在加州,想MountView,Santa Clara等)仍到太平洋。Intel公司在Pentium后将其最核心也改为RISC ops,当对用户保持ISA不变。大家看看现在的RISC厂商,谁能与其争锋。

    不知道大家是否还记得Transmeta公司,这家公司就采用VLIW架构来构建X86 ISA的处理器,功耗可是非常低的。可是这家公司市场前景有限啊,在咱们夏新的笔记本上用过,但夏新的笔记本业务也不咱的。最后转做License CPU Core和专利授权,最终落个被收购,收购方也接着倒闭了。

    Intel详细分析了VLIW的优劣势,最终在其处理器中集成了MMX/SSE等SIMD/MIMD指令。

    玩处理器,主要是两个玩法:
    1、玩工艺:这个就需要玩钱了,玩的是物理、化学等高端技术,一堆的专家;每次产线升级,建Wafer工厂以十亿美金为基本单位。目前领头的是Intel,IBM,TSMC等。大家知道AMD吧,他的很多技术都来自IBM,最后终于不玩了;TI以前也玩,到了后续的45nm/32nm/28nm就不玩了;以前的LSI Logic,Agere等也玩,现在也不玩了。日本,韩国等玩的也少了;我们台湾曾经有一堆公司玩,现在也不多了。
    2、玩微架构:这个就玩一个个电路,白板上是一堆一堆的功能单元图。

    总体上啊,IBM/Intel里面玩微架构的工资比玩工艺的少多了。想IBM这种牛公司,做个处理器啊,too easy,所以这些做处理器的专家日子不好过啊。

  11. 雁过留声 于 2010-11-27 5:28 上午

    Intel是要玩嵌入式市场的。嵌入式市场其实是很复杂的,就消费类电子,就有上网本,平板电脑,智能手机,电子书,MP3/MP4, GPS, STP,Google TV等等。这个市场基本是针对每种应用开发对应SoC的,所以我们无法看到谁能统治嵌入式市场。

    嵌入式市场基本上是免散热风扇设计的,因此芯片中尽量不要做多余的事,针对特定处理任务会提供对应的加速单元。

    大家也很清楚,Intel的印钞机是桌面和服务器芯片,小型机的Itanium是个赔钱的买卖,所以Intel怎么玩嵌入式,不是个容易的事情。Intel是否玩通讯就更不好说了。

    现在的客户也是非常聪明,不可能被几张漂亮的Roadmap PPT所忽悠的,早就在软件是做好了考虑的。大家不担心Intel的品质和供货,但很担心Intel是否是真心一起玩。其他小公司虽然有种种风险,尤其是商务风险,但至少是全身心投入来玩。

    这种选择就像女孩子找伴侣,Intel是个有钱的帅哥,其他公司是个真诚的普通男孩。一般的女孩会选择真心喜欢她的,而不是她喜欢的人。

  12. 路人甲 于 2010-11-27 6:28 上午

    300mw/MHz?应该是300mW/GHz吧?

  13. 陈怀临 于 2010-11-27 7:40 下午

    从工程或者even学术的角度,这篇文章没有谈到:为什么Cortex-A9 MP只能支持 UP TO 4个核。换言之,如果我集成6个Cortex-A9,8个Cortex-A9的core,系统如何做???

    在高端市场,特别是服务器市场,ARM能影响x86的可能性基本上不存在。。。感觉还是定位在SoC比较合适。

  14. KISS 于 2010-11-28 12:37 上午

    A8发布时是300mW@600MHz,0.5mW/MHz只是作者漏了评估能效的主要指标工艺-TSMC 65nm(LP or GP?)

  15. muddogxp 于 2010-11-28 11:23 下午

    关键还是软件,没用应用芯片再强也白搭。ARM也意识到这这点,搞起了Linaro。如果ARM的Soc都能统一软件层的接口(包括kernel, library),那将非常恐怖。

  16. jerry 于 2010-12-17 2:39 下午

    Intel : 40 多的熟女,家底厚,很多人又敬又怕.
    Arm : 20 多的嫩女,刚毕业,很多人想上一把.

  17. Well 于 2011-01-18 5:39 上午

    A8发布时是300mW@600MHz,0.5mW/MHz只是作者漏了评估能效的主要指标工艺-TSMC 65nm(LP or GP?)

    想请教下:LP与GP库具体在哪些方面不同,或者说LP库是通过什么方法来降低功耗的?

  18. bruticus 于 2011-02-16 7:38 上午

    工程或者even学术的角度,这篇文章没有谈到:为什么Cortex-A9 MP只能支持 UP TO 4个核。换言之,如果我集成6个Cortex-A9,8个Cortex-A9的core,系统如何做???

    CACHE一致性的问题吧
    CACHE一致性需要核之间进行监听,如果核的数量太多,那监听的回路将是恐怖的,延迟会非常大,负载也会非常大,核和核之间,在硅片上距离是很远的,看了INTEL的QPI的实现,感觉是交叉互联(这个也很恐怖,布线受不了),多级跳,核的监听一个一个接力过去,这是一个暴复杂的活,就像设计4个路口的,配个红绿灯就完了,搞个8个路口的,就要修立交桥,再多就变成西直门立交桥了

  19. bruticus 于 2011-02-16 8:08 上午

    我觉得INTEL在微体系结构上的积累是远远胜于ARM的,ARM做的东西是自行车的话,INTEL做的东西是汽车,ARM新的一代才引入了乱序发射,这个东西龙芯里面都已经实现了,MIPS做的也比ARM好
    INTEL的多核,多线程技术早就实现了,ARM实现多核也是不久的事情。可能是ARM的人太少的原因吧

    INTEL最大的技术优势在于门级电路的优化上
    体系结构上的差别,只要通过努力,基本上可以赶上,何况INTEL还背着X86的大包袱,体系结构的技术思想都是公开的。INTEL的核心电路广泛使用动态逻辑和全定制电路,这个基本上就是模拟设计的范畴了,涉及的都是信号完整,电荷转移方面的东西,这需要漫长的技术积累。采用标准的商用CMOS工艺,采用标准单元设计,基本上是无法到达INTEL的频率的,就是在同样的工艺条件下也是这样。ARM采用动态逻辑电路优化关键路径(SI14技术,就是自动综合产生动态逻辑电路),主频就提高了1倍(大概是2G吧)。MIPS也干过这样的事情。可惜的是动态逻辑功耗太大,不适合在嵌入式上使用。从这个角度上讲,INTEL是性能之王。在性能上要超越INTEL,还是需要漫长的时间,或者工艺进步了,不使用SI了,呵呵。服务器领域和PC领域,在性能为王的领域,ARM都不是INTEL的对手

    INTEL在嵌入式领域失败的原因是
    嵌入式领域太过于分散,没有大规模的盈利点
    就想吃草,ARM在规模上也就相对于INTEL的一个小组,嵌入式领域太小,养活不了INTEL,INTEL是食肉的老虎。分散而单体规模小的市场不适合大公司做,适合小鱼游,小公司灵活,成本低,适合打游击战。大公司反应慢,适合搞大战役。

    IC设计领域的悖论在于
    如果要使用规模效益,就应该采用单一产品全吞市场,这就是INTEL
    如果要搞差异设计,就应该百花齐放,这就是ARM,但这样就导致资源浪费(一堆的公司在设计同样的东西),违背了规模效益(同一芯片买的越多,其成本越低),ARM授权给很多家公司,结果把市场分割的更小,导致大家都挣不到钱
    那一天大容量低功耗的FPGA制造出来了,那么大部分数字电路设计公司就变成软件公司了

    那一天,电池技术突破了,ARM就完蛋了,INTEL就会一统江湖,IC设计将消亡,全部变软件公司了

  20. shuyong 于 2011-02-16 8:43 上午

    楼上,怎么评价Qualcomm SnapDragon?特别是最近发布的MSM8930(单核),MSM8960 (双核)和 APQ8064 (四核)。

  21. kevin 于 2011-02-16 9:00 上午

    19楼
    too simple,sometime naive。OOO是个电老虎,intel的ATOM都是in order的。

  22. Lucifer 于 2011-02-16 10:00 上午

    ooo确实耗电,不过bruticus的观点也是有点道理的,就是大架构上的东西都是大家都可以用的,只是还需要根据其他条件才能决定用不用。例如,对工艺的掌握,在细节上的把握上。在对具体的工艺上的优化上,Intel确实强

  23. bruticus 于 2011-02-16 10:37 上午

    X86的架构太复杂,造成乱序发射太耗电

    工艺的演进降低了动态功耗,同时可以集成更多的门,这有利于采用复杂的体系结构。RISC的乱序发射还是有前途的,需要有精细的折中

    多线程,多核不能有效的加速单线程程序,而嵌入式中,多线程的利用并不是很有效,超标量还是很有前途的

    ATOM采用顺序发射是不得已,体系结构太复杂
    功耗面积控制不下来

    CELL处理器当年放弃了乱序发射,采用顺序发射+多线程,结果APPLE就立即放弃了CELL处理器

    可能有限的乱序还是必须的,顺序+多线程意义不大,除非哪天大家通通多线程编程了

  24. 读者 于 2011-02-16 12:12 下午

    to 19楼:

    “ARM授权给很多家公司,结果把市场分割的更小,导致大家都挣不到钱”

    –应该说:“导致大家都不能像Intel那样轻松挣大钱”吧 :-)

  25. kevin 于 2011-02-16 12:48 下午

    to 22
    他的第一段话似乎想表明,OOO这种二十年前出现的技术,ARM刚刚应用在产品上。所以得出ARM是自行车intel是汽车这个结论。

    至于后面大段大段的论述,我只想提一点,就是云计算时代是否还对单体计算能力有那么大的依赖,尤其是在服务器领域。客户对性能更敏感还是对电费帐单更敏感。

    总是,too simple

  26. 理客 于 2011-02-16 1:17 下午

    早期确如bruticus的分析,嵌入式CPU的分散性不能入大老虎的牙缝,给了ARM机会,但当智能终端在以intel没有预料的速度成为海量市场的时候,ARM得以多年的媳妇熬成婆,intel也为自己在这个市场的战略失误付出了至少5年内失去这块市场的代价,如果intel有大佬能和apple结盟提供CPU,那么现在至少有一半的市场是intel,倘若继续和android结盟,那么80%市场会是intel的,挟此两天子,智能终端市场和PC类似,还是intel的天下,ARM也就还在媳妇中煎熬,当然,这都是事后诸葛,倘若intel如此高瞻远瞩,可以进一步造就intel的神话,但也失去了ARM世界的精彩

  27. Lucifer 于 2011-02-16 1:35 下午

    @kevin 在前一点上,我和你意见相同。也就是我后面说的,用不用某些设计,其实是按照自己的实际情况来,大理论基本谁都会。就是实现上有高低之分

  28. kevin 于 2011-02-16 1:52 下午

    其实没有那么玄,行业的恐龙在自己的地盘丰衣足食的时候,一向都缺乏动力去做转身的。intel早年在xscale做尝试的时候也确实火了一段时间,PXA成为当时嵌入式高端处理器的代名词。AMD64出现打的intel措手不及,一旦自己后院失火,立即把这些东西统统砍掉,毕竟桌面处理器才是自己身家性命所在。对付完AMD在回到移动市场,发现自己已经miss了几个quarter了。

    intel是一个公司,arm是一个行业。intel的神话永远不会再出现,看他的股票就知道了。慢慢学会当老二,与大家共存下去很重要。

    and,现在最大的半导体公司是三星,而不是intel

  29. 理客 于 2011-02-16 2:00 下午

    是,后院着火的时候,还有心情看别人家里美女的,是出家之前的上帝

  30. Lucifer 于 2011-02-16 2:08 下午

    还有,顺序+多线程很多RISC在用,power6、ultrasparc t2之类,当然,这些产品的特点就是,并非是面向嵌入式的。

    然而,现在的智能终端和传统的嵌入式产品也不太一样了,对性能的要求开始靠近PC了,ARM产品出现超标量、乱序、多核等就是一个证明,Atom以后应该也会走上乱序的道路吧,到时候应该仍有机会

  31. spike 于 2011-02-16 9:06 下午

    “MWC 2011大展今天刚刚在西班牙巴塞罗那开幕,高通就拿出了他们的震撼性新产品,代号Krait(环蛇)的下一代Snapdragon移动处理器微架构。该 系列包含多款产品,单个核心频率最高可达2.5GHz,相比现有ARM CPU性能可提升150%,同时功耗还能下降65%”

    前几天的新闻,这些数字不知道有没有经过第三方评测。不过ARM阵营的持续扩大和发展,像nVidia,Qualcomm和TI,Freescale这些有自身独特积累的公司不断投入,在很多领域ARM的综合价值已经超过x86,x86的舞台会越来越小的

  32. bruticus 于 2011-02-17 7:57 上午

    nVidia,Qualcomm和TI,Freescale制造的高性能ARM不同于ARM公司提供的ARM的IP
    可能不同通过授权给予一般的IC公司吧,实际上是私有的ARM,

    INTEL如果直接获得ARM的架构授权,直接就可以制造出最顶级性能的ARM来,这就相当于做汽车的来生产自行车一定也能做好,反之则不行,但是生产汽车的厂商看到自行车火爆了改做自行车未必符合商业原则,如果生产个摩托又耗油又未必跑的比自行车快,这就是ATOM,不要无限的拔高ARM,贬低INTEL,毕竟是1000人的公司对抗10万人的公司,在技术上,ARM没有优势,但是市场上将,ARM可以在嵌入式市场上游刃有余
    但是INTEL无法一家一家的去搞定一小块一小块的嵌入式市场
    这是INTEL无法做到的

    ARM的成功在于商业模式上,而不在于技术成就上,ARM从指令集架构上将,不如MIPS和SPARC那样完美

    顺序+多线程很多RISC在用,都是用在多线程,
    高内存延迟的环境下,比如服务器领域,在单进程模式下,没有什么性能的优势,要完全依靠软件设计(多线程编程)来弥补
    CELL处理器是一个典型的例子

  33. bruticus 于 2011-02-17 8:06 上午

    “至于后面大段大段的论述,我只想提一点,就是云计算时代是否还对单体计算能力有那么大的依赖,尤其是在服务器领域。客户对性能更敏感还是对电费帐单更敏感。”

    看你用在什么领域了,做IC设计跑个后仿真要几个月,验证个多核处理器的行为模型机器也要个把月,单体计算能力当然需要,大大的需要,

    就在嵌入式领域,谁会想到会在MP4上播什么1080P的高清视频,1080P搞定了,又出3D,计算能力需求又大了一倍,GPU也上了手机
    人类对计算能力的追求是贪婪的,从ARM的路线图也可以看的处理
    GHZ处理器,顺序双发射,乱序双发射,多核

  34. Lucifer 于 2011-02-17 8:16 上午

    拿cell来当例子并不好。还是那句话,得看领域

  35. bruticus 于 2011-02-17 8:18 上午

    to 24

    可以看很多消费电子领域,同一类产品的芯片,往往有很多公司在做,基本上都是采用授权ARM,授权GPU,韩国公司的视频格式编解码器,集成在一起,最后基本性能和功能都一样
    同质化非常严重,ARM有上亿的出货量,却分散在很多家小公司里

    最典型的是瑞星微公司
    基本模块基本靠IP,后端外包,自己重点写写软件,就成为了一个很强的IC公司,IC领域伟大的攒IP公司

    这样下去,中国还是难于积累芯片设计的竞争力

  36. 理客 于 2011-02-17 8:20 上午

    难道真的是intel放不下面不好意思申请ARM授权?未必全是,毕竟intel还是商人,在智能终端开始快速普及的时代,难道真的需要很多不同类型的ARM在这块而不能像PC一样只需要2-3家?难道真的intel造ARM就能立刻能提供一块高性价比的ARM给市场?是否是因为intel只是造CPU牛,但提供统一的智能终端解决方案一时还不能给力?
    可能此中有真意,外行不知,希望继续有人揭秘

  37. bruticus 于 2011-02-17 8:29 上午

    to 34
    CELL处理器是一个设计的经典
    是采用简化微结构来获得高主频,高内存带宽,最后实现超高的峰值计算能力和低功耗

    是顺序+多线程的典型例子
    CELL软件编写的好,可以非常广泛的应用
    亏在了软件生态上

    我开始还以为是CELL的设计者刻意做的
    其实看了CELL的设计简史就知道,这种方式是无奈的折中

    最初的CELL是乱序双发射
    后来进度不容许,该为顺序双发射
    目标客户苹果一看没有了乱序,就立即退出了

    后来一个设计服务器芯片的大牛加入
    那个大牛是个多线程fans,一定要把多线程加入

    最后的CELL就出现了

    如果好好做软件,CELL是一个经典,经典的RISC思想,通过软件来简化硬件的设计,软件控制我所想控制

    CELL最初构想了 代码片的概念,不同的CELL处理器可以构成网络,交换代码片,就像细胞之间互相联系一样,那个时候,专用GPU,专用编解码器都是浮云,提供性能只需要将更多的CELL堆叠就可以了
    确实是一个伟大的构想

  38. Lucifer 于 2011-02-17 8:45 上午

    Cell的麻烦在于SPE,以及其本身的一些古怪设定,导致了开发困难。顺序+多线程本身不是问题,你找错地方了

  39. shuyong 于 2011-02-17 9:01 上午

    to bruticus:

    nVidia,TI,Freescale制造的高性能ARM,都是在ARM公司提供的ARM的IP上做优化,因此会比标准的IP要快一些。大公司的实力就体现在集成和优化上。Qualcomm Scorpion Core,则是自己重新设计,全兼容Cortex-a8/a9,性能更好。

    INTEL有10万人,更多的是工厂里的人吧。ARM如果算上各个授权的大公司,人数也会有这个量级吧。ARM有这么大的应用,这么多年设计与需求的互动,技术积累也不少的了。ARM与INTEL之间的技术差距,不会有做汽车和做自行车的差距这么大了。否则INTEL不会对cortex-a15这么紧张了。

    INTEL要提供智能终端解决方案,最大的问题就在兼容性上了。生也兼容性,死也兼容性。为了实现兼容性,这DIE SIZE就可以和ARM11相当。那只有等电池的技术发展了。另外,做硬件设计的要做时尚的消费类产品,这个思路总是拗不过来。看这次MWC上的MEEGO DEMO是知道了。

  40. kevin 于 2011-02-17 10:16 上午

    to 36:
    intel还是转不过来这个弯,如果现在他加入ARM阵营,那自己家里做ATOM的都没脸见人了。

    当初就是害怕arm的发展,才一口气砍掉xscale然后下决心做atom。准备扶太子上位的时候才发现太子不给力,还伴了一个蠢材宰相(m$)。大好的江山就开始送人了

  41. 理客 于 2011-02-17 11:37 上午

    看各位大拿的意见,似乎intel不做ARM是综合问题,不是intel如果造ARM,肯定就能造出最好性价比的ARM那么简单,intel在智能终端上的错误,就像H在数通上的错误,intel到目前为止,核心决策层都没人懂智能终端的技术+市场,还是一片乱战

  42. Technology-and-I 于 2011-02-17 1:44 下午

    看各位大拿的意见;
    You all barking the wrong tree.
    B4 2006-6-27, INTC是有造ARM….And was the #1 ARM chip XScale/PXA… beat all ARMs all over the world.

    INTC still own ARM的架构授….has no need to (如果 & 获得权 ARM的架构授).

    Be open mind to think.

  43. kevin 于 2011-02-17 2:40 下午

    intel拿的是ARMv5的授权。扔掉xscale后,没有听说他还继续拿后面的架构授权。

    你中英文混杂的能力无人能及啊。。。。

  44. KISS 于 2011-02-17 4:39 下午

    IMHO,x86技术上问题不大,Intel的问题是胃口太大想通吃,硬件上自己想把bb/ap都搞定,软件上,用meego挑android。不过硬件可能是没办法,授权的路走不通,给力的厂商都不想冒风险换用x86的内核,只好自己干。

    我要是Intel的CEO,立马砍了IPF和Meego,或者将Atom和IPF的资源对换,Meego放给开源社区去自生自灭,再投几千人大力优化android on x86,大的OEM不愿意用就全力支持深圳的山寨厂商革他们的命,给山寨提供傻瓜式智能机方案。另一边砸钱收购几家制造设备厂商,工艺优势争取拉到领先tsmc 24个月。再收购一家FPGA厂商-不过这个跟移动市场关系不大。
    弯曲上有在intel董事会混的,以后换ceo可以考虑下我,给我奥哥一半的薪水就可以了。。。。。。

  45. kevin 于 2011-02-17 5:43 下午

    你少考虑了一个问题。
    intel如果大力转向android。第二天windows就会宣布强力支持arm。
    虽然wintel的蜜月期已经过了,但是在外人看仍然是夫妻关系。找小三只能私下偷偷找,而且不能找名气太大的。比如Brad Pitt抛弃Janifer找了Jolie。这几个人还都是娱乐圈的,以后见面难免尴尬。

    intel借道windriver偷偷搞嵌入式linux,和nokia搞这个meego。都不会太刺激M$的神经。如果直接支持M$在移动市场最强大的竞争对手android,那就是公开了和小三的关系。夫妻关系也就瞬间破裂了。何况intel的身家性命还是在桌面服务器市场,还得靠老婆在市场上的关系扶持一把。两个人感情不好,但是想想关起门来一起赚大钱,也就将就过下去了。

    打死我也不信microsoft里面没有人研究windows on arm的。只不过看现在这个平衡还能维持多久而已。

  46. kevin 于 2011-02-17 5:49 下午

    刚刚查了一下,1月份的CES M$正式宣布windows 8支持ARM。看来3-5年后一场混战在所难免。。。

  47. shuyong 于 2011-02-17 6:33 下午

    这次MWC好像在打擂台。先是QUALCOMM发布3个高端CPU,接着NVIDIA发布TEGRA3,号称性能超过INTEL T7200,最后是INTEL发布Medfield Android手机,号称功耗比ARM的还低。今年混战就开始了。

  48. kevin 于 2011-02-17 6:42 下午

    大胆想象一下,5年后你去电脑城装机器,会问你CPU用intel的amd的还是arm的。。。不过嵌入式往往对legacy code支持很差,估计还是进不到PC市场。

  49. Lucifer 于 2011-02-17 7:39 下午

    windows 8支持arm指的是soc的arm,而不是在台式机之类的地方,具体还得看三年后

  50. Technology-and-I 于 2011-02-17 7:39 下午

    5年后 or 5年前;5年后你[还去]电脑城装机器—In where 的电脑城? Africa or Moon? Right now, in USA most 电脑城 out of business….装机器, to me is a weird word; for what?

    3年后, China will also hit this level…电脑城 & 装机器; all weird words.

    Events of 5年后 U better look back 5年前;[随后ARM在2006年5月15日发布了Cortex-R4内核] And then there’re 2 movie series.

    BACK-TO-THE-FUTURE & STAR WARS… Some event has mentioned long time ago.

  51. kevin 于 2011-02-17 8:08 下午

    I 不 think so, there are still 大的 DIY section in 商店s like fry’s and bestbuy

  52. xudm 于 2011-02-17 8:57 下午

    intel差一点就推出基于Atom的智能手机了。
    据报道Nokia的N9就是基于Moorestown平台1.2ghz的Atom手机。原计划将于MWC正式发布的,但刚刚几天前诺基亚的新CEO的决定把WP7作为主要OS,把基于Meego的旗舰手机N9直接取消了,而且以后Meego可能只用于Nokia平板电脑的产品。
    这样intel的原来的计划立即化为泡影,可能使intel进军智能手机的计划整整推迟了一年,要等到下一代Medfield的产品,而相应的原来Meego的应用生态系统也可能会落后一年,对于竞争白热化的Mobile OS领域落后一年可能是要命的。
    刚刚看到intel CEO 欧德宁对Nokia的评论:诺基亚选择微软是个错误,Meego会成为第三个生态系统。显然intel怒气还未消。
    但埃洛普把即将完成的N9放弃了,这可是成百上千人参与的大项目,虽然有点断臂求生的意思,但为什么开源的Meego不能与WP7共存呢?这是场赌局,Nokia走向衰落或复兴?我看是走向衰落

  53. kevint 于 2011-02-17 9:11 下午

    赌的太大
    如之前那篇文章所说,如果WP7失败,对于微软来说仅仅是WP6失败后的又一个失败。反正移动市场从来没赚过钱。但对于nokia,可能在智能机市场翻身的机会就没了。

  54. spike 于 2011-02-17 9:11 下午

    “在展示了比之前悲剧的 Moorestown 小了好多的 Medfield 处理器以后,英特尔拿出了装备 Medfield 的 Android 手机,并开始攻击 ARM:

    告诉 Warren East(ARM CEO),在引入英特尔架构以后 ,手机能够用比 ARM 更低的耗电量提供更快的性能。是的,你们可以把这个消息发布出去。”
    –http://www.ifanr.com/34565

    我很好奇它跟Tegra 3的PK结果会如何?

  55. Technology-and-I 于 2011-02-17 9:23 下午

    風起雲湧,天下市場三分已然; 江山代出有人, 各為一方之霸。

    「科技始終來自人性」 but never ever say something ….”Two “Two turkeys together wont make an eagle.” wont make an eagle.” Someday.. 2 turkeys together make an J-20.” Ha… ha

  56. shuyong 于 2011-02-17 9:38 下午

    楼上的老大好难得,这次好容易是全句子是中文英文分得清清楚楚的。以后能不能坚持这样?人脑不是电脑,碰到中英交错,这个语境状态是切换不过来的了。

  57. Lucifer 于 2011-02-17 9:42 下午

    ……直接跳过

  58. 领先tsmc 于 2011-02-19 4:34 上午

    目前来说,先进工艺的导入时间INTEL领先其他公司18个月左右,INTEL的N-1代工艺相当于TSMC的N代工艺,与IBM的SOI相比,INTEL性能领先10%左右,PMOS幅度更大

  59. 领先tsmc 于 2011-02-19 4:41 上午

    2010半导体排名—-iSuppli analysis report[edit] Ranking for year 2010Source : iSuppli Corporation supplied rankings for 2010

    (foundries excluded)

    Rank
    2010 Rank
    2009 Company Country of origin Revenue
    (million
    $ USD) 2010/2009 changes Market share
    1 1 Intel Corporation USA 40 020 +24.3% 13.2%
    2 2 Samsung Electronics South Korea 28 137 +60.8% 9.3%
    3 3 Toshiba Semiconductors Japan 13 081 +26.8% 4.3%
    4 4 Texas Instruments USA 12 966 +34.1% 4.3%
    5 9 Renesas Electronics Japan 11 840 +129.8% 3.9%
    6 7 Hynix South Korea 10 577 +69.3% 3.5%
    7 5 STMicroelectronics FranceItaly 10 290 +20.9% 3.4%
    8 13 Micron Technology USA 8 853 +106.2% 2.9%
    9 6 Qualcomm USA 7 200 +12.3% 2.4%
    10 15 Elpida Memory Japan 6 678 +74.2% 2.3%
    11 14 Broadcom USA 6 506 +52.1% 2.1%
    12 8 AMD USA 6 355 +22.0% 2.1%
    13 11 Infineon Technologies Germany 5 226 +39.7% 2.0%
    14 10 Sony Japan 5 336 +19.4% 1.8%
    15 18 Panasonic Corporation Japan 5 128 +58.1% 1.7%
    16 17 Freescale Semiconductor USA 4 329 +27.2% 1.4%
    17 19 NXP Netherlands 4 021 +24.1% 1.3%
    18 23 Marvell Technology Group USA 3 680 +43.1% 1.2%
    19 16 MediaTek Taiwan 3 595 +1.2% 1.2%
    20 20 NVIDIA USA 3 189 +12.8% 1.0%
    Top 20 198 207 40.1% 65.2%
    All Other companies 105 799 20.2% 34.8%

  60. 麦克陈 于 2011-03-03 5:14 下午

    各位牛人,大家都是站在技术的角度讨论。站在消费者的角度,no one care x86 or arm,
    大家只 care 苹果,iphone.

    intel如果能搞定苹果,那么在智能终端市场还能一搏,否则,套用一句俗话:什么都是浮云。

  61. shuyong 于 2011-03-03 7:34 下午

    那Intel怎么搞定Apple呢?ipad2要8.8mm厚,要待机10h,该怎么选方案?

  62. 麦克陈 于 2011-03-03 7:57 下午

    功耗比arm低,性能比arm高,才有可能,否则基本没有可能搞定苹果。

    在智能终端领域,intel基本上是落后了,对于持有大量现金的intel来说,最好的策略是收购, nvidia是一个不错的目标,高通更好。

    打不过就加入,凭intel在工艺、设计上的能力,如果收购成功,其他的公司很难和其竞争,到头arm的天下也一样是intel的。

  63. samsung 40 于 2011-03-04 12:00 上午

    shuyong 于 2011-02-17 6:33 下午 这次MWC好像在打擂台。先是QUALCOMM发布3个高端CPU,接着NVIDIA发布TEGRA3,号称性能超过INTEL T7200,最后是INTEL发布Medfield Android手机,号称功耗比ARM的还低。今年混战就开始了。

    ———Coremark的官方跑分贴,有各种编译方式和各种CPU的分数:http://www.coremark.org/benchmark/index.php

    有些东西确实匪夷所思啊,例如ATOM分数比某个酷睿2还高。

  64. samsung 40 于 2011-03-04 12:02 上午

    话说NV的市场部还真是不要脸。我不知道Intel市场部怎么想的,应该直接放出Core/Atom和ARM各个测试的成绩对比,免得什么四核ARM比E7200性能都好这种话都冒出来。

  65. samsung 40 于 2011-03-04 12:05 上午

    CoreMark在同架构下对频率提升的表现几乎是线性的–所以这种测试没有意义,性能随频率线性提升? 个人对coremark并不感冒。架构频率都是浮云,编译器才是关键,不同版本的GCC,成绩差距太大。
    Coremark,无语
    Intel Atom N280 1.68 GHz GCC 4.4.4 3.187 5353.79 2:Fork vote 06/13/10-
    i1.66GHz的单核心Atom得了5353分,你觉得它有T7200性能的一半吗?

  66. samsung 40 于 2011-03-04 12:05 上午

    照这种逻辑,我可以说Tilera TILEPro64比Tegra 3快10倍,因为CoreMark在同架构下对频率提升的表现几乎是线性的,照这样推算Tilera TILEPro64 1.5G CoreMark 超过28万,比1.5G的Tegra 3快12-13倍

  67. kevin 于 2011-03-04 1:13 上午

    没有必要纠结数字。
    某种情况下tilera的性能就是tegra的12倍

    只是应用场景不一样,好似关公战秦琼,非要决个胜负出来。

  68. samsung 40 于 2011-03-04 2:30 上午

    kevin 于 2011-03-04 1:13 上午 没有必要纠结数字。
    某种情况下tilera的性能就是tegra的12倍

    只是应用场景不一样,好似关公战秦琼,非要决个胜负出来。

    —-是啊,所以我认为NV这种比较是没有意义的

  69. KISS 于 2011-03-04 6:37 上午

    CoreMark又开始沦为笑话了
    BSN爆料这次对比测试NV自家编译用的是gcc 4.x,然后intel的用gcc 3.x。而且nv是4核,intel是2核。呵呵,都是些常用的阴招。。。反正MWC不是ISCA,忽悠媒体就好了

  70. bruticus 于 2011-03-04 7:20 上午

    ARM A8的CoreMark很高,2.0
    超过了单发射的两倍左右,也超过了MIPS的
    按道理说顺序发射的性能提升不到两倍,
    而乱序发射的A9是2.5,相对于顺序发射只提高了25%
    觉得A8的CoreMark值很奇怪

  71. shuyong 于 2011-03-04 9:09 上午

    对多核系统要打开Thread选项去测分值才高

  72. ICC 于 2011-06-09 8:20 上午

    呵呵,Intel从atom诞生到现在,一直只给它45纳米工艺。这直接就是给ARM送大礼啊!

    现如今,智能手机平台和生物圈已经快成熟大半了,Atom还有机会么?显然没有!同时,以Intel完整的PC和服务器生态圈及软件支持,还有领先业界一年半的工艺,ARM在PC和服务器也没有可能切入点。

    Intel傻在几个地方,第一,过高估计自己的能力,放弃xscale.第二,错误在操作系统这块自己不善于的领域亲自操刀,并且还和诺基亚合伙。第三,一直留恋PC处理器的高售价,把Atom当庶出,给予最差的工艺。

  73. 一条虫 于 2011-06-09 9:16 上午

    CoreMark这种L1 reside……还有那个GCC的使用。就是在制造笑料嘛。。。

  74. freshfruit 于 2011-06-29 7:18 上午

    前几天面试一人,做Meego的,由于Intel重点支持Atom,Arm不重点考虑,很多厂家不跟着混了,剩自己玩了。