往事如烟--《扒1扒神经网络的神经大神们》
作者 陈怀临 | 2014-10-06 10:42 | 类型 Deep Learning, 机器学习 | Comments Off
作者:Nick Zhang 。
自图灵提出“机器与智能”,一直就有两派观点,一派认为实现人工智能必须用逻辑和符号系统,这一派看问题是自顶向下的;还有一派认为通过仿造大脑可以达到人工智能,这一派是自底向上的,他们认定如果能造一台机器,模拟大脑中的神经网络,这台机器就有智能了。前一派,我想用“想啥来啥”来形容;后一派就称之为“吃啥补啥”,估计他们的思想来源于中国古代的原始思维,套一句庸俗的哲学词,前者偏唯心,后者偏唯物。这两派一直是人工智能领域里两个阶级、两条路线的斗争,这斗争有时还你死我活。
1949年,神经心理学家Hebb出版《行为组织学》(Organization of Behavior),在该书中,Hebb提出了被后人称为“Hebb规则”的学习机制。这个规则认为如果两个细胞总是同时激活的话,它们之间就有某种关联,同时激活的概率越高,关联度也越高。换句话说,就是“吃啥补啥”。2000年诺贝尔医学奖得主肯德尔(Eric Kandel)的动物实验也证实了Hebb规则。后来的各种无监督机器学习算法或多或少都是Hebb规则的变种。
明斯基是人工智能的奠基人之一,是达特茅斯会议的组织者。明斯基在一次会议上和罗森布拉特大吵,他认为神经网络不能解决人工智能的问题。随后,明斯基和麻省理工学院的另一位教授佩普特合作,企图从理论上证明他们的观点。他们合作的成果就是那本影响巨大、“是也非也”的书:《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry)。在书中,明斯基和佩普特证明单层神经网络不能解决XOR(异或)问题。异或是一个基本逻辑问题,如果这个问题都解决不了,那神经网络的计算能力实在有限。其实罗森布拉特也已猜到“感知机”可能存在限制,特别是在“符号处理”方面,并以他神经心理学家的经验指出,某些大脑受到伤害的人也不能处理符号。但“感知机”的缺陷被明斯基以一种敌意的方式呈现,当时对罗森布拉特是致命打击。所有原来的政府资助机构也逐渐停止对神经网络的研究。1971年,罗森布拉特四十三岁生日那天,在划船时淹死。很多人认为他是自杀。王国维沉湖时遗言“经此世变,义无再辱”,在罗森布拉特,我猜“辱”是明斯基的书,“世变”是随后“神经网络”学科的消沉。不同的是,王静安谓之“世变”是历史潮流,但神经网络学科十年后会逆袭。 表面是科学,但有证据表明明斯基和罗森布拉特以前就有瓜葛。他们是中学同学。布朗克斯(Bronx)科学高中大概是全世界最好的高中,毕业生里出过八个诺贝尔奖、六个普利策奖。远的不说,明斯基是1944年毕业生,乔姆斯基是1945年毕业生,而罗森布拉特是1946年毕业生。美国高中学制四年,明斯基和罗森布拉特至少有两年重叠,而且彼此认识,互相嫉妒。1956年的达特茅斯会议定义了“人工智能”这个词,会议的组织者包括明斯基、麦卡锡和香农等,参会者还有司马贺,纽威尔等。这个会议在定义“人工智能”领域时只是提到了神经网络。那时明斯基是神经网络的支持者。他1954年在普林斯顿的博士论文题目是“神经-模拟强化系统的理论,及其在大脑模型问题上的应用”(Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem),实际是一篇关于神经网络的论文。他晚年接受采访时开玩笑说,那篇三百多页的博士论文从来没正式发表过,大概只印了三本,他自己也记不清内容了。貌似他想极力开脱自己和神经网络学科的千丝万缕的关系。达特茅斯会议的主题并不是神经网络,而是后来被纽维尔和司马贺称为“物理符号系统”的东西,也就是说达特茅斯会议,“想啥来啥”派是主要基调。 罗森布拉特被比他大一岁的明斯基妒忌是自然的。工作上,明斯基所负责的麻省理工学院的人工智能实验室也在向国防部和海军申请经费。大多数的圈内科学家,对罗森布拉特突然被塑造的明星范儿很反感。明斯基早期也是“吃啥补啥”派出身,但此时已经改为“想啥来啥”派了。由于他和佩普特对感知机的批判,俩人后来被“吃啥补啥”派称为“魔鬼搭档”。其实明斯基认识佩普特结识还是通过麦卡洛克的介绍,历史真是纠结。被称“魔鬼”是因为《感知机》第一版有言:“罗森布拉特的论文大多没有科学价值。”这话跳步确实有点大,但罗森布拉特人缘不好,没有得到同行的支持。 比罗森布拉特小一岁的维德罗(Widrow)是斯坦福大学教授,在罗森布拉特刚提出“感知机”时,就提出了Adaline可适应性算法。Adaline和感知机很相似,也是机器学习的鼻祖模型之一。罗森布拉特享受盛誉时,维德罗也沾了光,但在罗森布拉特死后,他却并没有被非难。维德罗在几十年后回忆说,那是因为他后来主要在电机系(EE)做集成电路的工作,而不是在计算机系里从事派系繁杂的人工智能研究,圈子不同,老死不相往来。
在信息科学和神经科学的结合部的失败,并没有影响到神经生物学内部。哈佛神经生物学家胡贝尔(Hubel)和威瑟尔(Wiesel)对视网膜和视皮层(visual cortex)中神经细胞的信息处理模式做了深入研究,他们为此获得1981年的诺贝尔医学奖。随后,麻省理工学院英年早逝的大卫·马尔(Marr)为视觉信息处理建立数学模型,影响了后来连接主义的运动。威瑟尔后来离开哈佛去了洛克菲勒大学。1991年洛克菲勒大学时任校长大卫·巴尔的摩出了学术丑闻被迫辞职后,威瑟尔出任洛克菲勒校长,为把那所学校建成生物学的重镇做出贡献。 1974年,哈佛的一篇博士论文证明了在神经网络多加一层,并且利用“后向传播”(Back-propagation)学习方法,可以解决XOR问题。这篇论文的作者是沃波斯(Werbos),他后来得到了IEEE神经网络学会的先驱奖。沃波斯这篇文章刚发表时并没引起多少重视,那时正是神经网络研究的低谷,文章不合时宜。 神经网络在1980年代的复兴归功于物理学家霍普菲尔德(Hopfield)。1982年,那时在加州理工担任生物物理教授的霍普菲尔德,提出了一种新的神经网络,可以解决一大类模式识别问题,还可以给出一类组合优化问题的近似解。这种神经网络模型后被称为霍普菲尔德网络。1984年,霍普菲尔德用模拟集成电路实现了自己提出的模型。霍老也培养了一批后起之秀,包括现在在生物学重镇Salk研究所担任计算神经生物学实验室主任的Terry Sejnowski。霍老后转往普林斯顿担任分子生物学教授,现已退休。霍普菲尔德模型的提出振奋了神经网络领域。一帮早期神经网络研究的幸存者,在生物学家克里克(Crick,对,就是发明DNA双螺旋的那位诺贝尔奖得主)和认知科学大佬唐·诺曼(Don Norman)的鼓励下,以加州大学圣地亚哥分校为基地,开始了“连接主义”(Connectionism)运动,这个运动的领导者是两位心理学家鲁梅尔哈特(Rumelhart)和麦克利兰德(McLelland),外加一位计算机科学家辛顿(Geoffrey Hinton)。
连接主义运动的成果之一就是那本著名的被称为PDP(Parallel and Distributed Processing)的文集。此书的出版给认知科学和计算机科学吹了股大风,被后起的神经网络新秀们成为圣经。“神经网络”在八十年代就像九十年代的互联网,后来的Web2.0,和眼下的“大数据”。谁都想套套近乎。一些做理论的大佬也不能免俗,发明RSA算法的R(Rivest)也带了几个学生转做神经网络学习问题的复杂性。一时间红旗不倒,彩旗飘飘,好不热闹。1993年,美国电气电子工程师学会IEEE开始出版《神经网络会刊》,为该领域的高质量文章提供出版渠道。美国国防部和海军、能源部等也加大资助力度。神经网络一下子成了显学。 连接主义运动也培养了一堆新人,并使得加州大学的认知科学系成为同类系科的佼佼者。鲁梅尔哈特后转往斯坦福大学任教,前年不幸死于已挣扎多年的神经退化疾病。乔丹就是他的学生,而Andrew Ng又是乔丹的学生,鲁梅尔哈特人虽离世,但香火没灭。他的另一名学生Robert Glushko后来远离本行,跟随硅谷互联网早期英雄塔南鲍姆,创立了一家XML公司,那家公司后来卖给Commerce One,赚了一票钱。Glushko捐钱设立了“鲁梅尔哈特奖”来奖励神经网络的研究者,辛顿成了第一位获奖者。麦克利兰德则先转往卡内基梅隆担任计算机和心理两系教授,后来也到斯坦福,在那里建立了“心、脑、计算研究中心”,一度还担任心理系主任。 辛顿则先转往卡内基梅隆,最终到加拿大多伦多大学计算机系任教。辛顿现在可是神经网络最牛的人了。他还有一段不太为外人所知的革命家史:他是布尔的外曾曾孙子(对,就是“布尔代数”的那个布尔),他曾祖母Ellen是布尔的女儿。中国革命的参与者、美国铁杆左派韩丁和寒春(William and Joan Hinton)也是Ellen的孙子孙女,照这么说韩丁是辛顿的堂叔,寒早是辛顿的堂婶。布尔的小女儿、Ellen的妹妹伏尼契(Ethel Lilian Voynich)是传遍苏联和中国的小说《牛虻》的作者。《牛虻》西方不亮东方亮,在苏联和中国是几代人的革命加爱情励志畅销书。晚年在纽约生活陷入困顿的伏尼契,靠了苏联和周恩来特批的中国的意外稿费得以善终。这一家子把中国、苏联、革命、逻辑和神经网络都联系起来了,通吃“吃啥补啥”派和“想啥来啥”派。 语言学家、公共知识分子斯蒂夫·平克对连接主义不以为然。鲁梅尔哈特和麦克利兰德在PDP圣经中合作了一章,讲神经网络可以学会动词的过去式,比如一看start,就知道started,一看come就知道came等等。平克认为有规则的过去式(直接加ed的,如started)可以通过简单计算得来;而不规则的(不通过加ed的,如came)则是存在大脑的一个特定区域。平克引用神经心理学的证据指出处理规则的和不规则的操作是在大脑不同部位完成的,他还认为神经网络的行为和一类大脑受伤害患失语症的病人的行为相似。其实这种观察并不深刻,都是罗森布拉特三十年前玩剩下的。符号系统可能比较适合处理规则的情况,而神经网络可能更适合不规则的情况,这个一般人都能想到。对神经网络派的批评也如此:我们可以定义一个规则,可以用符号系统实现也可以用神经网络实现。哪个快用哪个。 符号处理和神经网络的方法论之争有时会被更大地夸张。伟大的乔姆斯基就不认可人工智能领域的最新进展。机器翻译历来是人工智能的试金石之一,就像在1996年之前的计算机下棋。机器翻译的早期实践都源于乔姆斯基的理论,但近来的突破却是基于统计的方法。乔姆斯基认为统计的方法不“优雅”(elegant),只是模仿而不是理解。会骑自行车不算理解,对自行车为什么不倒,能说三道四,才算理解。谷歌的研发总监彼特·诺维格为统计方法辩护时说:简单的模型(如乔姆斯基理论,以及后来的各种改进版本)不能解决复杂的问题,人工智能的进一步发展必须两条腿走路。诺维格在加入谷歌之前曾是加州大学伯克利分校的计算机教授,他对两派都了如指掌,在学术界和工业界都被尊重,他写的《人工智能》是最流行的教科书。他的观点似乎被更多的人接受。 神经网络在八十年代的光芒被后来的互联网掩盖了。但这几年又恰恰是互联网给了神经网络更大的机会。这几年计算机科学最火的词儿就是“深度学习”。神经网络由一层一层的神经元构成。层数越多,就越深,所谓深度学习就是用很多层神经元构成的神经网络达到机器学习的功能。辛顿就是“深度学习”的始作俑者,他2006年的一篇文章开辟了这个新领域。最新的深度神经网络的最后两层的每个节点都可对应于某些概念。这是神经网络的一大进步,貌似为“吃啥补啥”找到了科学根据,调和了与“符号派”的矛盾。至于符号派买不买账是另一回事。深度学习的实测效果很好。辛顿最早用来做图像识别,而后来微软用深度学习还开发可实用的语音识别和同声翻译系统。 年过六十的辛顿不甘寂寞,和他的两个学生开了家专注深度学习的公司。公司成立没多长时间,谷歌和微软就对这家公司动了收购的念头,后来百度也加入竞标,最终花落谷歌,谷歌出了几千万美元于2013年初收购了这家只有三名员工的公司。为了把辛顿纳入花名册,谷歌还真不差钱。
斯坦福大学人工智能实验室的创办人约翰·麦卡锡,是达特茅斯会议的主要组织者,“人工智能”这个词就是他提出的,也是他把明斯基拉到他当时任教的麻省理工。说他是人工智能之父是名副其实,约翰大叔是铁杆的符号派。但现任的人工智能实验室主任却是神经网络的大拿Andrew Ng。这个转变也许是个“吃啥补啥”派得志的风向标。斯坦福的这个神经网络的目标是模拟人的大脑。这让我们不禁想起了罗森布拉特,那不正是他的梦想吗? 本文写作得到老友洪涛的鼓励,向他感谢。每次和他聊天都受益非浅。 | |