雅虎模仿谷歌,计算基础设施改用Hadoop

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




hadoop-logo

      雅虎的互联网查询做得不如谷歌好,很大一部分的原因是因为它的计算基础软件不如谷歌,很多复杂的算法不能运行。谷歌的制胜法宝主要有三个,谷歌文件系统(Google File System),分布式数据库BigTable,和在上面运行的MapReduce软件。现在雅虎终于决定放弃自已的一套系统,学习谷歌,采用Hadoop软件。Hadoop是开源版的谷歌的MapReduce,数据库,和文件系统。

      谷歌文件系统(GFS),是一个自主开发的分布式文件系统,并针对互联网查询进行了优化。最初它称为“BigFiles”,是Larry Page和Sergey Brin还是斯坦福(Stanford Univeristy)博士生时开发的。从其名字可以看出,它专长于处理大的文件,几个G甚至几十个G字节的文件。一个文件被分成很多块存在不同的机器中,每块都有备份,某个机器的故障不会影响整个文件系统。

      谷歌用的数据库叫做BigTable,也是自主开发的。它也是一个分布式系统,专长于处理大的文件,更适于列(Column)查询,而不是行(Row)查询。大量的谷歌应用程序使用BigTable,例如,Google Reader、Google Maps、Google Print、Google Earth、Blogger.com、Google Code、Orkut、Youtube等,当然还有MapReduce。MapReduce是谷歌的互联网排序程序,它把收集到的大量网站Reduce成一个Map,然后根据关键字进行排序。下图是MapReduce在不同时期的一些统计数字,从中可以看出MapReduce处理的巨大数据量,以及互联网的飞速发展。

google-mapreduce-chart

      Hadoop是Apache开源社区的一个项目,它的目的是开发一套类似于谷歌的软件。Hadoop包括两块,一个是Hadoop Core,对应于GFS和对MapReduce的支持;另一个是HBase,对应于BigTable。

      既然雅虎决定采用Hadoop,说明这一软件的质量已经做得相当好。希望雅虎可以因此缩小与谷歌的差距,加剧互联网查询领域的竞争,使得我们每一个互联网用户都可从中受益。

(1个打分, 平均:5.00 / 5)

雁过留声

“雅虎模仿谷歌,计算基础设施改用Hadoop”有1个回复

  1. bill 于 2009-04-11 7:39 下午

    从我接触Hadoop很长时间来看,Hadoop现在虽然开源,但是基本还是全部掌握在Yahoo的手里。Hadoop还没有像Linux一样真正的融入到开源社区中。
    说的严重点就是,Yahoo在Hadoop上表示的更是一种态度和策略,并不是真正意义上的开源。