微软的BrowseRank,挑战谷歌的PageRank

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




image      地球人都承认,谷歌公司的互联网查询做的好,别人没法比,但还是有很多人在不断的尝试新的算法。谷歌查询的核心算法叫做PageRank,这其中的‘Page’,可以是‘页面’,也可以指算法的最初作者,也是谷歌的创始人,Larry Page,估计两个含义都有。PageRank算法简单来说,就是用大量互联网页面中的链接来判断各个页面的重要性。越多的页面中有链接指向你,你就越重要;越重要的页面中有链接指向你,你就更重要。也就是说,雅虎主页中有一个链接指向你的网站,和你哥们儿王大毛主页中的一个链接指向你,在谷歌的PageRank算法中,其重要性不太一样。当然,以上描述不能算严谨,喜欢刨根问底的看官,下面是PageRank的定义:

PageRank is defined as follows:

We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

     PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages’ PageRanks will be one.

还觉着不过瘾的看官,这里是介绍PageRank的论文,作者是谷歌的两位创始人,当时还是斯坦福的学生,Sergey Brin和Larry Page。

      本周新加坡的一个学术会议上发表的一篇论文中,微软公司的研究人员公布了一个新的互联网查询算法,称为BrowseRank。他们的想法是,PageRank赋予了太多的权利给网站开发人员,他们可以决定哪个网站更重要,而使用互联网的广大用户,却没有话语权。BrowseRank算法要从用户的角度看问题,统计页面的访问量,访问越多的页面就越重要。

      BrowseRank的想法听起来有一定的道理。但互联网查询现在是一个数十亿美元的生意,谷歌公司中从事这项研究的人上千,现在使用的算法复杂程度远非最初论文中描述的可比。所以,笔者并不认为BrowseRank算法的出现会对谷歌构成什么威胁。BrowseRank也不是第一个挑战PageRank的算法,本人就看到过很多个。如果每个新算法都要写一篇文章介绍,兄弟我就甭干别的了。

      嘿,那你为什么要单单评论BrowseRank呢?

      坦白交代,因为该论文的作者是中国人。第一作者来自北方交大,其他作者还有来自微软北京研究所,南开,中科院,和北大。论文原文在这里(英文PDF文件)。在计算机研究领域,中国人发表的有意义的论文还不多,这里要鼓励一下。

      再回到技术上来,BrowseRank能否成功不好说,但它提出的想法有点意思。谷歌的查询是做的不错,但不是十全十美。很多人从事SEO, Link Farm,钻谷歌的空子赚钱,这就说明他们的算法还有很多漏洞可钻。笔者也同意应该加入互联网用户的声音,用一个网页的浏览数来表示其重要性,应该是一个不错的想法。不过,这可以用在大的网站中,但用户少的网页可能很难统计流量。这些小的网页,还是用PageRank会更准确。另外,统计流量,大概要通过用户端的浏览器,IE,Firefox,或使用Tool Bar,这两种办法都会存在一定的统计误差。微软拥有IE,在统计用户流量上,可能会胜谷歌一筹。

      我们来留意一下,微软的BrowseRank是发一篇论文就完了,还是真要做下去。如果真会做下去,根据微软的传统,等他们做到3.0版,搞不好还真会是一个不错的产品。

(3个打分, 平均:5.00 / 5)

雁过留声

“微软的BrowseRank,挑战谷歌的PageRank”有2个回复

  1. 豌豆 于 2008-07-26 5:47 上午

    Very good information as well as good writing.

  2. 草根网 于 2008-07-27 1:43 上午

    好文,收藏至20ju.com