云计算中心的基石,ARM架构?

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




本文是2010-6-2号的《最新云计算信息》,希望大家能喜欢。

 

虽然Intel的ATOM系列芯片已经在功耗和性能等方面有了极大地提高,但是随着诸如iPad,iPhone和Windows 7 CTP的推出,使的在云客户端方面,ARM结构已经独领风骚了,而且其更开始涉足后台的云计算中心。本文将通过介绍ARM架构在服务器领域的一些新的动态和其它方面的信息,来深入探讨ARM结构是否能在今后替代X86架构成为云计算中心的基石?

 

在现有的云计算中心中,X86架构可谓事实上的标准,因为其在价格和支持软件这两个方面,都已经大大地领先了过去的两大服务器王者小型机和大型机。但ARM架构身为一个后来者,是如何能和已经占据垄断地位的X86架构竞争的呢?这不得不提一下,ARM架构的两个最大的优点:其一是价格低,其二是能耗低。也就是说ARM架构在价格和性能之比与能耗和性能之比这两方面非常出众,而且价格和能耗也是构建一个云计算中心非常重要的两个因素,因为在一个云计算中心中会有海量的服务器,由于其巨大的规模,使其不论在服务器的购置成本,还是在能耗方面,都开支很大。接下来将首先介绍一下ARM架构的在服务器领域的一些发展。

 

现有的ARM架构在服务器领域的解决方案

Marvell

Marvell自从收购Intel的XScale ARM项目之后,已经在ARM架构方面投入重金,而且拥有数千名相关的工程师,并在今年推出了基于ARM Cortex-A9架构和台积电40nm制程的四核芯片,并在主频方面达到2GHz,且功耗也不到1W。在性能方面,这款芯片在相同功耗的情况下性能是Atom芯片的5倍。在价格方面,这个芯片的批发价只需15美元,远低于需要数百美元的Xeon芯片。

下面是两张图分别是四核ARM芯片架构图和ARM芯片和ATOM芯片在性能上比较。

ARM 4way SMP

图1. 四核ARM芯片架构图

ARM Performance

图2. ARM芯片的Benchmark

Dell

在2009年,Dell已经推出了基于威盛Nano芯片的低功耗XS11-VX8服务器,其体积相当于一块3.5英寸的硬盘,而且在一个标准2U机箱内放置12台这样的服务器,单服务器的满载功耗在30瓦以内,并在近两年内出货5000多套类似的系统。而Dell的低功耗方面下一步就是对基于ARM Cortex A9架构的多核心芯片进行测试,并希望能在这方面有所突破。

 

ARM架构在服务器领域的不足

虽然上面的例子很激动人心,但是ARM还是在很多方面存在不足:

  1. 软件方面:虽然Linux系统已经能在ARM架构上完美的运行起来,但是在所支持程序的数量上面,和X86架构相比,差距还是很大的,特别是无法很好地支持中小企业常用的Windows Server系列。
  2. 内存方面:由于现有的ARM架构对大容量的内存支持不佳,一般很难看到能支持2G以上内存的ARM芯片,更别说服务器方面常见的4G以上内存。
  3. 设计方面:在这方面,著名云计算专家James Hamilton认为,虽然ARM架构在ATOM芯片不支持ECC内存方面有不错的支持,但是在芯片层不支持一致性缓存(Cache Conherent)并缺少一个优秀的内存控制器,使的ARM芯片无法像最新的Nehalem芯片那样近乎完美的应对基于服务器的应用。

 

适合的场景

基于现阶段的ARM架构,ARM架构在适合场景方面有一个非常重要的特色,就是对那些能被精细切分的应用支持非常好,比如Web Hosting等,但对那些能够被对本地资源(比如CPU,内存和I/O)需要非常强烈的应用支持不是很好,最明显的例子就是数据库。下面是两个比较适合的场景:

  1. 简单的Web Hosting:比如ARM的官方站点就是使用基于Marvell MV78100 SOC的ARM服务器,加上在软件方面常见的Debian和Ngnix组合能非常好地支撑其官方站点的运行。
  2. 静止存储(Very cold storage):也就是存储那些很少被读取数据。因为运行这种应用的服务器最关键的因素是硬盘的大小,而且对CPU和内存这两方面的要求比较低,所以通过引入ARM架构将在不影响性能的情况下,降低用于负载静止存储的服务器的成本和功耗。

总体而言,对普通企业用户而言,由于引入ARM架构会对其本身的IT环境带来一定的影响,所以估计会进行长期的测试、评估和验证过程。但对那些Web 2.0企业而言,因为其本身应用非常适合ARM架构,而且也非常重视成本,所以她们很有可能会是第一批用户。

 

X86架构的应对

当然X86方面,肯定不会坐以待毙,下面将稍微介绍一下它们的应对之策:

Intel

在低功耗方面,Intel除了用于移动设备的ATOM芯片之外,最近在服务器领域推出了名为“30瓦”的解决方案,为什么称为“30瓦”呢?因为其设计的低功耗服务器板载一颗只要30瓦的Clarkdale核心的双核芯片,而且整个服务器尺寸只有一本书那么大,在5U的机箱内能放置16个这样的服务器,而且单个服务器的整体功耗在75W内。下图为这个方案的实例:

intel micro server

图3. Intel的30瓦解决方案

除了这个方案之外,而且Intel还会在价格方面给需要大量芯片的云计算中心很优惠的折扣。

AMD

当谈到ARM架构所有带来的挑战的时候,AMD亚太区副总裁兼总经理Benjamin Williams认为:“最好的服务器并不是以绝对的性能来衡量,而是应该能够有效的管理能效”。看来AMD有可能将通过提高整体性能,包括能效方面,来应对ARM架构的挑战。

APPLE

去年,APPLE推出了升级版的Mac Mini,而且特别设计其作为服务器使用并预装了Mac OS X Snow Leopard的 Server版,并装载了两个500GB硬盘来提升存储容量。

微软

虽然微软只是一家软件公司,但是为了更好地支持其云计算服务,比如Bing,所以在低能耗架构方面也做了一些尝试,而微软所选择的芯片是ATOM,通过一系列实验发现ATOM芯片不仅能支撑其云计算服务,而且能利用休眠状态来大规模地节省能源方面的开销。

 

ARM架构与X86架构的比较

下表将对基于ARM架构与基于X86架构的服务器的进行比较,虽然数据方面比较不精确,但总体应该能给大家一个大致的影响:

基于ARM架构的服务器 基于X86架构的服务器
性能 一般
能耗 三十瓦以内 一百瓦以上
价格 几百美元左右 一千美元以上
性能/能耗比 一般
性能/价格比 一般
软件的支持 非常多
适合的负载 非常多

表1. 基于ARM架构与基于X86架构的服务器之间的比较

 

ARM架构的Tipping Point

Tipping Point的中文意思是“引爆点”,也就是说ARM架构在何种情况下,能够在云计算中心方面,对X86架构发起挑战,我个人认为需要有下面这三个条件:

  1. 完善的软件支持:不仅是基于Linux的软件栈能对ARM架构有很好的支持,而且基于Windows的软件栈也能对ARM架构有不错的支持。
  2. 更高的性能:在性能方面,ARM架构能够在保持原有低成本和低功耗这两个优点的情况下,能够进一步的提高。
  3. X86自身出现问题:虽然X86架构在很多方面表现出色,但由于其架构不断地被更新,导致在技术债方面非常沉重,这有可能影响到X86架构自身的发展。

在上面这三点中,除了第二点之外,其它两点是挺艰巨的,希望时间能给我们答案。

 

参考资料:

  1. When Very Low-Power, Low-Cost Servers Don’t Make Sense
  2. ARM问鼎服务器 能否成为挑战x86的黑马
(2个打分, 平均:5.00 / 5)

雁过留声

“云计算中心的基石,ARM架构?”有38个回复

  1. HJ 于 2010-06-05 6:42 下午

    我对服务器技术不是很了解,不过这里专家多,想问一个问题:
    - 如果硬件架构和OS不限,在现有的技术条件下搭出来的一个U的服务器上最多能支撑多少个VM?每个VM至少能够流畅地运行WINXP或linux桌面,满足上网和普通office的应用

  2. 不正直的人 于 2010-06-05 6:52 下午

    我在ibm3650上试过跑7台VMware的虚拟机,CPU不够用。。。在虚拟机里想编译个程序都会慢得要死。。

  3. ppc 于 2010-06-05 7:40 下午

    有没有关于 powerpc 的比较?

  4. ikewu83 于 2010-06-05 8:05 下午

    to hj:
    如果每个VM至少能够流畅地运行WINXP或linux桌面,满足上网和普通office的应用,16个左右。

  5. ikewu83 于 2010-06-05 8:06 下午

    to 不正直的人:
    是ESX吗? 应该没什么问题的,是不是新款的CPU吗?

  6. HJ 于 2010-06-05 9:46 下午

    To ikewu83

    16这个数字是目前的技术上限吗?我的意思是配最多最好的CPU,最多的内存

  7. ikewu83 于 2010-06-06 12:27 上午

    16是比较不错的数字,最好的CPU,最多的内存?这个应该没有相关的实验,理论上,假设一台Rack使用4路Xeon高端6核芯片(4*6*2,24个处理核心),144G内存,应该能运行100个VM。

  8. xxmyz 于 2010-06-06 12:47 上午

    最新的ARM和Atom处理器Javascript性能跑分对比
    * Android 2.1 on Tegra 2 – 9 seconds (Tegra prototype shown in video)
    * Android 2.2 on Snapdragon 1Ghz – 6 seconds. (Nexus One, Google V8 engine)
    * Android 1.6 on Snapdragon 1Ghz – 24 seconds (Xperia X10)
    * Android 1.6 on Snapdragon 1Ghz – 54 seconds (Dell Streak prototype)
    * Chrome on Atom 1.6 – 2 seconds (average netbook, Google V8 engine)
    原文地址:http://www.umpcportal.com/2010/06/tegra-2-javascript-benchmark-shows-a-lot-of-promise/

  9. xxmyz 于 2010-06-06 1:06 上午

    intel单方面给出的基准测试对比ARM处理器
    http://www.engadget.com/photos/highlights-from-intels-atom-z6xx-briefing/#2953907

  10. 理客 于 2010-06-06 2:44 上午

    Marvell很厉害,文章很好,学习了很多

  11. ikewu83 于 2010-06-06 4:01 上午

    to 理客:
    听Marvell说,他们那边比ARM还懂ARM!

  12. memo 于 2010-06-06 3:33 下午

    云计算的未来还是非常光明的!

  13. org 于 2010-06-06 7:41 下午

    哥们有人用过MARVELL吗,支持太烂了,想和intel对抗,~~~

  14. afeiguo 于 2010-06-06 8:49 下午

    Marvell跟Intel有着千丝万缕的关系

    以前不就是Intel的一个嵌入式部门吗?

    所以,Marvell和Intel对抗,感觉是一场游戏

  15. ikewu83 于 2010-06-06 9:08 下午

    同意楼上的,marvel和intel,应该比较类似MS和citrix之间的关系。

  16. Koobee 于 2010-06-07 4:05 上午

    Marvell对ARM CPU投入很大,目标是Marvell成为ARM CPU中的Intel.据说华为的以太网交换机要大量使用Marvell的ARM了.

  17. kkk 于 2010-06-07 5:52 上午

    之前倒是看到broadcom重仓mips.拿到了mips所有核的授权,这两家真是,不过我觉得marvell在交换这块还是竞争力输给broadcom很多,而且是越来越…

  18. muxer 于 2010-06-07 6:00 上午

    marvell有arm的architecture license,但是重新实现了microarchitecture,性能刚刚的.

  19. org 于 2010-06-07 7:04 上午

    SGI Announces Hybrid Computing Platform to Deliver a Petaflop in a Single Cabinet
    Scalable Technology Offers Users Unprecedented HPC Capabilities

    FREMONT, Calif., and Hamburg, Germany, International Supercomputing 2010 — June 1, 2010 — SGI (NASDAQ: SGI), a global leader in HPC and data center solutions, today announced at the International Supercomputing Conference (ISC) that it has developed a breakthrough hybrid computing platform that will deliver a petaflop of performance within a single cabinet. (A petaflop is defined as a thousand trillion floating point operations per second.) This innovative platform leverages open software architecture and will scale from tens to hundreds of petaflops, enabling users to tackle the most demanding technical compute requirements.

    “We are excited to announce this radically differentiated server technology platform,” said Dr. Eng Lim Goh, senior vice president and chief technology officer at SGI. “Our innovative technology will enable users to attain new levels of scalability and speed with groundbreaking performance capabilities, culminating in a petaflop in a cabinet.”

    The new platform was designed to drive performance to specifically address the growing science and engineering technical markets that rely on high-end software to achieve rapid results. It offers GPU processing capabilities from NVIDIA® and ATI, as well as accelerator-based technology from Tilera®, and other peripheral component interconnect express (PCIe) based solutions. The technology will be seen in SGI products by the end of 2010.

    “SGI shows its R&D strength again,” said Steve Conway, IDC research vice president for high performance computing. “Following closely on the heels of the Altix UV series, SGI has introduced a highly dense, scalable technology designed for strong sustained performance on very demanding HPC applications.”

    About SGI
    SGI is a global leader in large-scale clustered computing, high performance storage, HPC and data center enablement and services. SGI is focused on helping customers solve their most demanding business and technology challenges. Visit http://www.sgi.com for more information.

  20. 理客 于 2010-06-07 4:47 下午

    以太交换芯片这块明明是有机会的,竞争者却做得很艰难,BCM太强了,既是机会,也是门槛,有点像IP里的思科

  21. org 于 2010-06-07 5:39 下午

    BCM 最近投资了做多核的TILERA公司,不知道是否也是为了进军云计算处理器做准备,BCM还是有实力的

  22. ikewu83 于 2010-06-07 7:36 下午

    关于TILERA的芯片,我在上次云计算大会上和他们的人员聊过,因为其基于扩展过的MIPS instruction set,感觉软件会是其软肋。

  23. 陈怀临 于 2010-06-07 8:08 下午

    做芯片的时候,对ISA的扩展不要轻易想和动。。。没做过编译的人不太了解这一点。。。。。。Again,系统的难度才是真难度,而非一个指令的定义和实现。。。。。。

  24. 黄岩 于 2010-06-08 5:46 上午

    tilera不是扩展的MIPS指令集,是自己重新定义的一套VLIW指令集。

  25. 于 2010-06-08 5:45 下午

    评论的质量越来越差了。感觉24个评论里面有60%在乱说。

  26. cortex 于 2010-06-08 7:00 下午

    marvell的core, soc很牛? 我笑…

  27. multithreaded 于 2010-06-08 7:48 下午

    >3.X86自身出现问题:虽然X86架构在很多方面表现出色,但由于其架构不断地被更新,导致在技术债方面非常沉重,这有可能影响到X86架构自身的发展。

    多核有可能给每个厂商提供一个新的机会, 每个核不需要很复杂,还需要精简,轻装上阵。

  28. teleheart 于 2010-06-09 10:01 下午

    好像大家对Marvell的认识都是从Marvell收购Intel Xscale开始的,其实之前就有ARM architecture liscense了,也出了很多高性能的CPU

  29. multithreaded 于 2010-06-12 3:38 下午

    Marvel在收购Intel Xscale之前, 连编译团队都没有,看不出能做出高性能的CPU。 做PHY出生的人和做CPU流水线的人是不一样的。

  30. multithreaded 于 2010-06-12 3:43 下午

    ikewu83一针见血啊,Tilera的软件是其软肋:-)

    其实对任何新的体系结构,软件都是其软肋。 我一直不明白, Tilera为什么不走高端DSP的市场,要在Networking里搅混水哪?

  31. multithreaded 于 2010-06-12 3:51 下午

    》ARM架构在服务器领域的不足

    》3.设计方面:在芯片层不支持一致性缓存(Cache Conherent)并缺少一个优秀的内存控制器,使的ARM芯片无法像最新的Nehalem芯片那样近乎完美的应对基于服务器的应用。

    根本谈不上完美,是不及格。如果连 Cache Coherence都不支持, 如何在上面做SMP的程序开发哪?CC是通用多核的基础,没有他很难在上编程。

  32. 陈怀临 于 2010-06-20 8:53 下午

    同意。另外,估计arm的CC一上,功耗就上去了。。。可见要与Intel博弈,还是要血拼呀。

  33. dsper 于 2010-06-20 10:35 下午

    cortex不是已经有scu了吗,粗略看了一眼,支持cache
    coherence,支持smp,可以作为option,目前还是支持4个core。

  34. org 于 2010-06-21 4:34 上午

    大家还是要以发展的眼光看待问题,十年前的问题,今天已经不是问题,今天的问题,十年后如何。ISA也好,CC也好,CPU互联架构也好,都是为了解决特定的问题,关键未来十年应用的挑战是什么,谁能解决这些挑战,自然就可以脱颖而出,而这些挑战是什么呢?

  35. multithreaded 于 2010-06-23 10:47 上午

    十年以后的挑战是学术界研究的问题, 工业界应该关注眼前的问题。

  36. 读者 于 2010-07-23 1:06 下午

    最新消息, 连 Microsoft 也变成了architecture liscensee, 看来也要设计自己的ARM芯片了:

    “The new pact is an architecture license, which allows Microsoft to design its own ARM chips, much like Qualcomm does with its Snapdragon processors used in products such as the Dell Streak tablet and Google’s Nexus One smartphone. ”

    URL: http://news.cnet.com/8301-13924_3-20011492-64.html?tag=topTechContentWrap;editorPicks

  37. ChangingIndustry 于 2010-07-26 2:12 上午

    目前ARM Cortex-A9支持4核一致性,在更多核(>>4)Cache Coherence上的支持很快会有巨大的改变。

  38. org 于 2010-07-26 5:49 上午

    TILERA AND QUANTA UNVEIL THE WORLD’S MOST POWER EFFICIENT AND HIGHEST COMPUTE DENSITY SERVER
    Using Tilera’s TILEPro64 processors, the S2Q server packs up to 10,000 cores in a standard rack that consumes less than eight kilowatts of power

    SANTA CLARA, Calif., and SAN FRANCISCO; VELOCITY 2010 and STRUCTURE 2010 — June 22, 2010 — Tilera® Corporation, the world leader in many-core general purpose microprocessors for cloud computing and networking applications, and Quanta Computer Inc., one of world’s largest computer ODMs, today unveiled the world’s most power efficient and highest compute density server, codenamed S2Q. The S2Q server, targeted specifically to tackle today’s cloud computing workloads, was designed in collaboration with cloud datacenter providers, end customers and software partners. It is targeted at large-scale datacenters running high performance web, database, hosting, and finance applications.

    “This announcement is the validation of the real-world implications of our processors and what they offer,” says Omid Tahernia, CEO, Tilera Corporation. “Cloud is changing the way we think about computing. There are new demands for power efficiency and density that are not met by the x86 technology. Tilera based servers are meeting these exact needs in the market.”

    “We are very excited about the S2Q server. This is a technological breakthrough, providing the high performance required at a fraction of the space and power budget,” said Mike Yang, vice president of the Cloud Computing business unit, Quanta Computer Inc. “This server illustrates Quanta’s continued leadership in server designs providing the latest in technology to the market.”

    Each S2Q server includes eight Tilera TILEPro64™ processors and replaces eight high-end Intel Xeon 5000-class dual-socket servers, making it the highest performance and performance density 2U server in the industry. It provides vendors the building block for large-scale web clouds. Moreover, the integration of I/O on each processor enables this server to provide up to sixteen 10 GbE interfaces and sixteen 1 Gb interfaces without adding the power and the cost of additional chipsets and networking cards.

    8 nodes each containing the 64-core TILEPro64 processor
    512 cores providing up to 1.3 trillion operations per second
    176 Gbps of I/O bandwidth
    Up to 64 DIMM slots
    Up to twenty four 2.5” hot-plug SAS, SATA or solid state hard drives

    Each server node consumes 35-50 watts max
    S2Q servers enable up to 10,000 cores in a eight kilowatt rack
    90%+ efficient hot-plug power supplies
    Shared fans and power supplies to conserve space and power for an eco-friendly design

    Front-mounted 2.5″ hot-pluggable hard drives
    Four hot-pluggable 2-node trays
    Hot-pluggable power supplies
    IPMI 2.0 dedicated management ports
    Tilera’s many-core design is ideal for the cloud because cloud applications execute millions of small parallel tasks simultaneously, instead of very complicated single threaded programs, which require very big cores. The TilePro64 processor features 64 cores running SMP Linux. Tilera’s iMesh™ technology enables it to integrate many cores with coherent caches to deliver scalable performance.

    The S2Q server will be available to customers in September 2010 in limited quantities and generally available in Q4 2010. For additional information on the S2Q server contact S2Q@qsscit.com.

    Tilera will be demonstrating the S2Q system on June 22-24 at Velocity 2010 in Santa Clara, Calif., and on June 23-24 at Structure 2010 in San Francisco.