科技一周~那时未必花开,只有曾经的年少
作者 硅谷寒 | 2014-08-01 10:32 | 类型 硅谷科技周报 | Comments Off
系列目录 科技一周
科技一周~那时未必花开,只有曾经的年少 2014/07/27 小时候,我家附近有一些樱花树,听祖母说,是当年日本人栽的,曾经盛开过,整树整树都是白色的花瓣,但不知出于何种原因,自八十年代以来,这些樱花树便再也不曾绽放过。那时,我经常一个人偷跑出去,给樱花树浇水,梦想着某天之后,会有无数的樱花在我面前盛开。二十年过去了,我的梦想并没能变成现实,樱花树依然瘦骨嶙峋地立在原地,直到有天被市政厅的人将它们一一拔去。 如今我已长大,虽不再奔跑呼喊,却从未失去梦想,心中仍有一株“樱花”,正自生根发芽,静静地在那里,等着我来看它美丽的绽放。当然,偶有彩云飘过,我也会回想往事:那时未必花开,只有曾经的年少。 本周的科技新闻,等来的正是Amazon,这株没有盛开的“樱花树”:
本期科普将围绕着樱花树的“存活性”来聊一聊:)试想,倘若我在事先就知道那些樱花树早已死亡,根本不会开花,我便不会再浪费时间去浇灌它们。那么,我该如何去判断樱花树是否能盛开呢?我不是植物学家,自然无法判断,但我的目的是,把这一概念类比到机器学习里来。在机器学习理论里,有一个很重要的判断,就是“某一个待学习的概念是不是可学习的”?类比我的樱花树,就是“这一株待浇灌的樱花树是不是可存活的”?只有事先判定了概念的“可学习性”,我们再去设计相应的算法来学习它,才会有意义。 哈佛大学教授Leslie Valiant[2]给出了一种概率意义下的“可学习性”判断:PAC Learnability。简单说来:如果在某种算法下,某个待学习的“真实概念”与逼近它的“假设概念”可以在概率意义下达到误差为零,那么这个“真实概念”就是PAC可学习的。对照计算理论里的时间复杂度和空间复杂度,Leslie定义了机器学习算法中的样本复杂度,并给出了PAC可学习概念的样本量下限值。这个“样本复杂度”可以类比为,我浇灌樱花树的难度,简而言之,就是“我们需要多少样本才可以学习好一个概念”vs“我需要浇灌多少水才能看到樱花盛开”。其实,在前述BookLamp的新闻里,其推荐算法中要学习的“书籍类型”就是一个PAC可学习的概念,有兴趣的同学不妨参考[3]中Conjunction of Boolean Literals的例子。当然,真正实现起来,要比[3]里例子复杂一些。Leslie Valiant也凭此奠基性的理论,获得了2010年度的ACM图灵奖。
[1]. Josh Constine, Ingrid Lunden, http://techcrunch.com/2014/07/25/apple-booklamp/, July 2014. [2]. http://amturing.acm.org/award_winners/valiant_2612174.cfm, 2010. [3]. Mehryar Mohri, “Foundations of Machine Learning”, ISBN-13: 978-0262018258, The MIT Press, August 2012, pp. 18-19. 图1. http://timedotcom.files.wordpress.com/2014/07/amazon-q2-2014-earnings-report.jpg?w=1100 图2. [1]. | |