【刘挺】自然语言处理与智能问答系统

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

节选自微博:杨静Lillian

【刘挺】哈尔滨工业大学教授,社会计算与信息检索研究中心主任,2010-2014年任哈工大计算机学院副院长。中国计算机学会理事、曾任CCF YOCSEF总部副主席;中国中文信息学会常务理事、社会媒体处理专业委员会主任。曾任“十一五”国家863 计划“中文为核心的多语言处理技术”重点项目总体组专家, 2012 年入选教育部新世纪优秀人才计划。主要研究方向为社会计算、信息检索和自然语言处理,已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863计划项目等各类国家级科研项目20余项,在国内外重要期刊和会议上发表论文80余篇,获2010年钱伟长中文信息处理科学技术一等奖,2012 年黑龙江省技术发明二等奖。

 

【刘挺】大家好,我是哈工大刘挺。感谢杨静群主提供的在线分享的机会。2014年11月1-2日,第三届全国社会媒体处理大会(Social Media Processing, SMP 2014)在北京召开,12个特邀报告,800多名听众,大会充分介绍了社会媒体处理领域的研究进展,与会者参与热情很高,2015年11月将在广州华南理工大学大学举办第四届全国社会媒体处理大会(SMP 2015),欢迎大家关注。

今晚我想多聊一聊与自然语言处理与智能问答系统相关的话题,因为这些话题可能和“静沙龙”人工智能的主题更相关。欢迎各位专家,各位群友一起讨论,批评指正。

 

IBM沃森与智能问答系统

 

【杨静lillian】刘挺教授在自然语言处理、数据挖掘领域颇有建树。腾讯、百度、IBM、讯飞、中兴等企业都与他有合作,他还研发了一个基于新浪微博的电影票房预测系统。

近年来,IBM等企业将战略中心转移到认知计算,沃森实际上就是一个智能问答系统。刘教授谈谈您在这方面的研发心得?

 

【刘挺】我们实验室是哈尔滨工业大学社会计算与信息检索研究中心,我们的技术理想是“理解语言,认知社会”。换句话说,我们的研究方向主要包括自然语言处理(Natural Languge Processing, NLP)和基于自然语言处理的社会计算,此次分享我重点谈自然语言处理。

1950年图灵发表了堪称“划时代之作”的论文《机器能思考吗?》,提出了著名的“图灵测试”,作为衡量机器是否具有人类智能的准则。2011年IBM研制的以公司创始人名字命名的“沃森”深度问答系统(DeepQA)在美国最受欢迎的知识抢答竞赛节目《危险边缘》中战胜了人类顶尖知识问答高手。

【白硕】深度,是从外部观感评价的,还是内部实现了一定的功能才算深度?

【刘挺】白老师,我认为深度是有层次的,沃森的所谓“深度问答”是和以往的关键词搜索相比而言的,也是有限的深度。IBM沃森中的问题均为简单事实型问题,而且问题的形式也相对规范,比如:“二战期间美国总统是谁。”

【白硕】要是问二战时美国总统的夫人是谁,估计就不好做了。

【刘挺】相应的,2011年苹果公司在iPhone 4s系统里面推出Siri语音对话系统,引起业内震动。百度、讯飞、搜狗先后推出类似的语音助手。但近来,语音助手的用户活跃度一般,并没有达到预期的成为移动端主流搜索形式的目标。

语音助手产品在有的互联网公司已基本处于维持状态,而不是主攻的产品方向,这背后的核心原因一方面是虽然语音技术相对成熟,但语言技术还有很多有待提高的空间,无法理解和回答用户自由的提问;另一方面,对生活类的查询用菜单触摸交互的方式,用户使用起来更便捷。

因此,但无论IBM沃森还是苹果Siri距离达到人类语言理解的水平仍有很大的距离,智能问答系统还有很长的路要走。

 

【胡颖之】@刘挺 这个问题我们调研过,不知国外情况如何,大部分人觉得,在外对着手机自言自语有点尴尬,且往往还需要调整识别不准的词。如果是一问一答,就直接电话好了,不需要语音。

【刘挺】IBM沃森在向医疗、法律等领域拓展,引入了更多的推理机制。认知计算成为IBM在智慧地球、服务计算等概念之后树起的一面最重要的旗帜。

【杨静lillian】深度问答系统转型成了智能医疗系统。请问我国企业怎么没有开发这种基于认知计算的智能医疗系统?

【刘挺】相信不久的将来,我国的企业就会有类似的系统出炉。百度的“小度”机器人日前参加了江苏卫视的“芝麻开门”就是一个开端。不过,当前我国的互联网公司似乎对微创新、商业模式的创新更感兴趣,而对需要多年积累的高技术密集型产品或服务的投入相对不足。IBM研制沃森历时4年,集中了一批专家和工程师,包括美国一些顶尖高校的学者,这种“多年磨一剑”的做法是值得学习的。

 

【杨静lillian】一个问题。百度的资料说小度机器人是基于语音识别的自然语言处理机器人,而沃森是视觉识别(扫描屏幕上的问题)。沃森到底是怎么进行问答的?

【刘挺】沃森不能接收语音信息及视频信息,因此比赛时主办方需要将题目信息输入沃森中,便于沃森理解题目。并且,Watson只利用已经存储的数据,比赛的时候不连接互联网。沃森不可以现场连接互联网,也是为了避免作弊的嫌疑。不过,如果让机器扫描印刷体的题目,以当前的文字识别技术而言,也不是难事。

【杨静lillian】原来这样,那么它会连接自己的服务器吧?可以把沃森看成一台小型的超级计算机?

【白硕】意思是服务器也部署在赛场。

 

【罗圣美】刘老师,IBM说的认知技术核心技术是什么?

【刘挺】罗总,IBM认知计算方面的核心技术可以参考近期IBM有关专家的报告,比如IBM中国研究院院长沈晓卫博士在2014年中国计算机大会(CNCC)上的报告。

 

 

高考机器人与类人智能系统

 

【刘挺】国家863计划正在推动一项类人智能答题系统的立项工作,目标是三年后参加中国高考,该系统评测时同样禁止连接互联网,答题需要的支撑技术事先存储在答题机器人的存储器中。

【杨静lillian】您说的这个就是讯飞的高考项目。哈工大与讯飞有个联合实验室,是从事相关研究么?

【刘挺】目前,863在规划的类人答题系统包含9个课题,以文科类高考为评价指标,讯飞公司胡郁副总裁担任首席科学家,我实验室秦兵教授牵头其中的语文卷答题系统,语文是最难的,阅读理解、作文等需要推理、创意等方面的能力。

【刘 挺】为什么要启动沃森、高考机器人这类的项目呢?要从搜索引擎的不足说起。海量数据搜索引擎的成功掩盖了语义方面的问题,在海量的信息检索中,有时候,数 据量的增加自然导致准确率的上升,比如问“《飘》的作者是谁”,如果被检索的文本中说“米切尔写了《飘》”,则用关键词匹配的方法是很难给出答案的,但由 于Web的数据是海量的,是冗余的,我们不断地追加文本,就可能在某个文本中找到“《飘》的作者是美国作家米切尔”这样的话,于是利用简单地字面匹配就可以找出问题和答案的关联,从而解决问题。因此,是海量的信息暂时掩盖了以往我们没有解决的一些深层问题,比如语义问题。

【白硕】飘的作者生于哪一年,也是一样,掩盖了推理和上下文连接的问题。

【杨静lillian】有没有可能,只要有足够海量的数据,那么从中总会找到想要的答案。

【白硕】不会的。

【刘挺】在搜索引擎中,海量的数据掩盖了智能推理能力的不足,但是在类似高考这样的需要细粒度的知识问答的场景里面仅靠海量数据是远远不够的,因而将把更深层次的语言理解与推理的困难暴露在研究者面前,推动技术向更深层发展。

举例而言,有用户问:“肯尼迪当总统时,英国首相是谁?”,这个问题很有可能在整个互联网上均没有答案,必须通过推理得到,而人类其实常常想问更为复杂的问题,只是受到搜索引擎只能理解关键词的限制,使自由提问回退为关键词搜索。

 

【胡颖之】那么微软小冰这一类的问答机器人,是属于相当初级的形态么?

【刘 挺】问答系统有两大类:一类是以知识获取或事务处理为目的的,尽快完成任务结束问答过程是系统成功的标志;另一类是以聊天及情感沟通为目的的,让对话能够 持续进行下去,让用户感到他对面的机器具有人的常识与情感,给人以情感慰藉。我们认为微软“小娜”属于前者,“小冰”属于后者。

【胡本立】词汇,语言只是脑中概念的部分表达。

【杨静lillian】提供一份背景资料。

据日本朝日新闻网报道,以在2021年前通过东京大学入学考试为目标的机器人“东Robo君”,在今年秋天参加了日本全国大学入学考试,尽管其成绩离东京大学合格的标准还相差很远,但较去年有所进步。

“东Robo君”是日本国立信息学研究所等机构于2011年开启的人工智能开发项目,目标是在2021年度之前“考取”东京大学。此次是继去年之后第2次参加模拟考试。

据主办模拟考试的机构“代代木Seminar”介绍,考试必考科目包括英语、日本语、数学、世界史、日本史、物理等7项科目,满分为900分(英语、国语满分200分,其他各科满分100分)。“东Robo君”此次获得了386分,偏差值(相对平均值的偏差数值,是日本对学生智能、学力的一项计算公式值)为47.3,超过了去年的45.1

据介绍,如果“东Robo君”以这次的成绩报考私立大学的话,在全国581所私立大学里的472大学中合格的可能性为80%以上。研究人员认为“东Robo君”的学力水平“应该已能比肩普通高三学生”。

据称,该机器人在英语和日本语方面成绩有所提高,看来是倾向文科。在英语科目上,日本电报电话公司(NTT)参与了开发。NTT不仅灵活地运用其收纳了1千亿个单词的数据库,还加入了NTT公司开发的智能手机对话应用软件等技术。例如,在考试中的对话类填空题中,“东Robo君”会根据会话的语气或对话方的感情来进行判定,这使其成绩有所提高。但“代代木Seminar”的负责人表示,“如果目标是东大的话必须拿到9成的分数。老实说,‘东Robo君’还需更努力才行”。

但是,“东Robo君”的理科明显较弱。在数学函数的问题上,“东Robo君”无法像人一样在图表中描画图形,因为它不能进行直观性的理解。有关物体的运动问题也是同样,假设忽视物体的大小,以及假设摩擦为零之类的思考方式“东Robo君”还做不到。据称,这是因为他认为此类假设在现实中完全不可能。

除了参加7项必考科目外,“东Robo君”还参加了政治、经济的考试,它不能理解譬如“民主主义”的意思。据称,是因为教科书中没有过多解释少数服从多数,以及过半表决规则等社会常识,因此“东Robo君”对此并不熟悉,并且它也因此无法理解社会公正的概念。

该机器人项目负责人、国立信息学研究所新井纪子教授表示:“探究人工智能的极限可以说是这个项目的目的。弄清人和机器如何才能协调相处的问题,是日本经济发展的一把钥匙。”

 

【刘挺】杨静群主介绍的这篇新闻,我们也注意到了。日本第五代机的研制虽然失败了,但日本人仍然对机器人和人工智能充满热情,2021年让机器人考入东京大学是一个令人兴奋的目标。

【白硕】应该反过来思考,五代机的失败对今天的人工智能热有什么启示?

【刘挺】人们对人工智能的关注波浪式前进,本人认为当前对人工智能的期待偏高,本轮高潮过后将引起学者们的冷静思考。

 

【杨静lillian】按理说,届时我们的机器人就应该可以考入北大、清华了?

【刘挺】考入北大、清华是非常高的智能的体现,难度极大,这样的愿景能够变为现实,需要业内学者和企业界研发人员的通力合作,也有赖于未来若干年中计算环境的进一步提升。

【杨静lillian】讯飞的高考机器人是文科生,不考理科?这么说自然语言处理,反而是机器最能接近人类智能的一步?

【刘挺】文科生

【白硕】考理科想都不要想。小学的应用题要能做对已经很不容易了。

【杨静lillian】很奇怪的悖论,算力如此强大的计算机,连应用题都不能做。。。

【刘挺】我接触的一些数学家认为:只要能把应用题准确地转换为数学公式,他们就有各种办法让机器自动解题,因而即便对数学这样的理科科目而言,语言的理解仍然是关键的障碍。

【杨静lillian】看来高考机器人20年内都只能是文科生?但日本为什么2021年能让机器人上东大,也是文科?

【刘挺】日本2021年的目标也是考文科,跟中国的目标一致。

【杨静lillian】这充分说明了,为什么机器最先替代的是记者等文科生。。。

 

机器人为什么不能学习常识?

 

【胡本立】还有自然语言是不精确的,要只会精确计算的机器来不精确地表达比倒过来更难。

【白硕】应用题背后有大量的潜在常识性假设,对于人,不说也知道,对于机器,不说就不知道。

【杨静lillian】常识难道不能学习么?

【周志华】常识问题,图灵奖得主John MaCarthy后半辈子都在研究这个问题。悲观点说,在我退休以前看不到有希望。路过看到谈常识,随口说一句。

【杨静lillian】@周志华您是说20年内让机器学习常识没有希望?

【周志华】甚至是没看到能够让人感觉有希望的途径。当然,不排除有超凡入圣的人突然降生,拨云见日。

【白硕】常识获取比常识推理更难。

【刘挺】关于常识,谈谈我的观点:理论上的常识和工程实践中的知识获取或许有较大的区别。作为应用技术的研究者,我们对常识知识获取持相对乐观的态度。

群体智慧在不断地贡献大量的知识,比如维基百科、百度知道等,谷歌的知识图谱就是从这些体现群体智慧的自然语言知识描述中自动提炼知识,取得了令人瞩目的进展。

【白硕】我误导了。显性常识只需要告诉机器就行了,隐性常识往往是我们碰到了问题才知道原来这个都没告诉机器。所以,显性常识获取并不挑战智力而只挑战体力,但是隐性常识获取至今还在挑战智力。

 

 

【杨静lillian】既然机器学不会常识,为什么能给病人进行诊断呢?语言理解虽然难,但看起来依据常识进行推理就更难,几乎被认为没有可能性。

【杨静lillian】所以霍金和特斯拉CEO马斯克为什么还要“杞人忧天”呢?连常识都不可能具备的“人工智能”,到底有什么可怕的?

【刘挺】2014年6月8日,首次有电脑通过图灵测试,机器人“尤金·古斯特曼”扮演一位乌克兰13岁男孩,成功地在国际图灵测试比赛中被33%的评委判定为人类。

【刘挺】现在有学者质疑在图灵测试中,机器人总是在刻意模仿人的行为,包括心算慢,口误等,模仿乌克兰少年也是借非母语掩盖语言的不流畅,借年纪小掩盖知识的不足。

【王涛-爱奇艺】星际穿越里的方块机器人对话很有智慧和幽默。要达到这个智力水平,还需要解决哪些关键问题?语言理解,对话幽默的能力。。。

【刘挺】智能问答系统的核心问题之一是自然语言的语义分析问题。

【白硕】我曾经提出过一个明确的问题,要孙茂松教授转达给深度学习的大拿,也不知道人家怎么应的。问题如下:输入一些回文串作为正例,非回文串作为反例,用深度学习学出一个区分回文串的分类器。

 

情感计算与电影票房预测

 

【王涛-爱奇艺】语义分析这个问题深度学习是否有效?或者要依靠知识库,推理的传统技术呢?

【刘挺】深度学习近年来成为语音、图像以及自然语言处理领域的一个研究热潮,受到学术界和工业界的广泛关注。相比于深度学习在语音、图像领域上所取得的成功,其在自然语言处理领域的应用还只是初步取得成效。

作为智能问答基础的自然语言处理技术,当前的热点包括:语义分析、情感计算、文本蕴含等,其他诸如反语、隐喻、幽默、水帖识别等技术均吸引了越来越多学者的关注。

自然语言处理领域的重要国际会议EMNLP,今年被戏称为EmbeddingNLP。(注:Embedding技术是深度学习在NLP中的重要体现)

自然语言本身就是人类认知的抽象表示,和语音、图像这类底层的输入信号相比,自然语言已经具有较强的表示能力,因此目前深度学习对自然语言处理的帮助不如对语音、图像的帮助那么立竿见影,也是可以理解的。

我实验室研制的语言处理平台(LTP)历经十余年的研发,目前已开源并对外提供云服务,称为语言云。感兴趣的群友可以在语言云的演示系统中测试目前自然语言处理的句法语义分析水平:http://www.ltp-cloud.com

 

【杨静lillian】情感计算,这个有趣。可以把我的微信好友按照情感量化,排个序么?

【刘挺】情感分析是当前自然语言处理领域的热点,在社会媒体兴起之前,语言处理集中于对客观事实文本,如新闻语料的处理,社会媒体兴起之后,广大网民在网上充分表达自己的情绪,诸如,对社会事件、产品质量等的褒贬评论,对热点话题的喜、怒、悲、恐、惊等情绪。

目前的情感分析技术可以计算你的粉丝对你的情感归属度,对你各方面观点的支持及反对的比例。我们实验室研制了微博情绪地图:http://qx.8wss.com/,根据对大量微博文本的实时分析,观测不同地域的网民对各类事件的情绪变化。

现在在微信上输入”生日快乐“,屏幕上会有生日蛋糕飘落。未来,只要你在微信聊天中的文字带有情绪,就能够被机器识别并配动画配音乐。

机器能够理解甚至模拟人的情感,是机器向类人系统迈进的一个重要方向。

 

【胡本立】深刻理解自然语言的产生和理解还得等对脑科学包括脑认知过程和机制的理解,通个模拟来发现和理解难会有突破性进展。

 

【杨静lillian】情感归属度这个比较有趣。我认为可以对微信群做个智能筛选。保留归属度高的,删除归属度低的。公众号也是同理。刘老师,那么您认为情感计算是未来认知计算的突破方向之一?

【朱进】@杨静lillian 恕我直言,机器的智能筛选免不了是弱智的决定。只要编程这种形式存在,真正意义上的创造就很难想象。

【白硕】情感归属度,先要解决特定的情感倾向是针对谁、针对什么事儿的。反贪官不一定反皇帝,反害群之马不一定反群主。

【刘挺】呵呵,白老师说的是评价对象(比如“汽车”)识别问题,评价对象还有多个侧面(比如“汽车的外观、动力、油耗等”)。

【刘挺】刚才杨静群主提到认知计算,我们认为计算有四个高级阶段:感知计算、认知计算、决策计算和创造计算。

语 音识别、图像识别属于感知层面,语言理解、图像视频的理解、知识推理与数据挖掘属于认知计算,在人类认知世界并认清规律的基础上,需要对社会发展的未来进 行预测并辅助决策,更高的计算则是创造计算,比如我们正在研制的机器自动作文属于创造计算。情感与认知密切相关,应该属于认知计算层面。

我们开展了两年多的中国电影票房预测研究,最近百度也开展了电影票房的预测,这项研究属于决策计算范畴。

【杨静lillian】百度对《黄金时代》的预测据说遭遇了滑铁卢。《黄金时代》这个片子,最主要的原因还是文艺片当大众片推了,高估了市场的接受度。

【刘挺】对于《黄金时代》的票房,百度预测是2.3亿,我实验室“八维社会时空”(http://yc.8wss.com)的预测是8000万,实际票房是5200万而。我们正在开展股票预测研究,社会媒体上反映出的股民情绪为股票预测提供了新的数据支持。重大突发事件与股票涨跌的关联亦是股票预测的重要手段。

白老师是上海证券交易所的总工,又是计算机领域的顶级专家,对证券市场中的计算技术最有发言权,以后我们这方面的研究需要向白老师学习

【杨静lillian】照白老师的想法,量化交易应该逐渐取代散户操作,那么情绪的影响应该是越来越小了。至少权重不会像此前那么高。

【白硕】应该说是情绪都暴露在量化武器的射程之内。

 

【刘挺】关于票房预测,我们采用了基于自然语言语义分析的用户消费意图识别技术,在电影上映前较为准确地计算在微博上表达观影意图的人群数量,这是我实验室票房预测的一块基石。

【朱 进】假如是个制作质量极差的电影,但是谁都没看过,制作方按常规方式宣传,机器能预测出来票房会极差吗?最简单的道理,完全同样的内容,换个相近的名字作 为新电影再放,机器会对票房给出跟第一次结果一样的预测吗?如果第三次换个名字再放哪?题目很牛,所有的宣传都很牛。问题是,预测的机器难道不需要先看一 遍电影再猜吗?另外,这机器真的能看懂电影吗?

【白硕】朱老师,买票的人基本都是没看过的人。做决策,从分析没看过的人的行为入手倒是可以理解的。

 

【刘挺】票房预测有时会失准,主要原因包括:电影制作方的强力微博营销行为、竞争影片的冲击、主创人员不合时宜的公关表态等等。

我实验室还在开展因果分析的研究,在《大数据时代》一书中,作者舍恩伯格认为相关性非常重要,因果关系可以忽略,我们认为因果关系的挖掘将对人类的决策起到关键作用,值得深入研究。

比如,如果《黄金时代》市场不理想的原因是如杨静所言“文艺片当大众片推了”,那么如何用大数据验证该原因是真正的主要原因,以及是否还有其他隐蔽的重要原因未被发现,这将对未来电影营销提供重要的决策支持。

 

【杨静lillian】市场有时非理性。看看《泰囧》,还有《小时代》这类片子就知道了。不知为何,国产片总是低智商更符合大众口味,但美国大片,就《星际穿越》也可以横扫中国。口碑的分析恐怕也很重要。不仅是宣传。朋友的评价这些都影响观影决策。还有时光网与豆瓣的评分。

【王涛-爱奇艺】静主说的这个,和爱奇艺同事聊也是有这个规律。我们今年买了变4,收视一般。那个便宜的泰囧,大众很喜闻乐见。小时代是为90后设计的。致青春为80后设计的。这是他们票房火的原因。

【杨静lillian】可能是两个受众市场。需要做个交叉分析。

【白硕】火的都有共同点,但共同点和智商无关。大众不是傻子但也不都是高大上。从高大上角度看低质量的影片也不乏受大众追捧的理由。这又相对论了。

 

 

【白硕】我关心的问题是,整个预测领域都有个案定终身的趋势,什么准确率召回率一类测度都不见了,这是非常危险的苗头。

【朱进】@白硕 按 我的理解,所谓的预测是在首映之前就做出来的。第一天的票房可以跟机器的预测一致。不过看电影的人又不是傻子,第一场一过,马上电影很臭不值得看的舆论就 传播出去了。后面的人还会按照之前的预测那样挤到电影院里吗?按我的理解,票房的关键还是片子的质量。可是片子的质量再没看到之前其实是不知道的。

【刘挺】@朱进 ,短期预测易,长期预测难,因为在事件演进过程中会有多种因素干扰。预测有两种,一种是事前预测,一种是在事件推进中根据已经获悉的事态对下一步事态进行预测。

【朱进】@刘挺 我咋觉得长期更容易猜准啊,因为时间对于涨落是有平滑的。

 

 

【杨静lillian】刘教授可总结一下,认知计算未来您最看好的技术突破么?需要从您的角度给出趋势判断。

 

【刘挺】我是自然语言处理、社会媒体处理方面的研究者,视野有限。

自然语言处理技术趋势:1. 从句法分析向深度语义分析发展;2. 从单句分析向篇章(更大范围语境)发展;3. 引入人的因素,包括众包等手段对知识进行获取;4. 从客观事实分析到主观情感计算;5. 以深度学习为代表的机器学习技术在NLP中的应用

高考文科机器人只是一种测试智能水平推动学术发展的手段,高考机器人技术一旦突破,将像沃森一样甚至比沃森更好的在教育、医疗等各个领域推动一系列重大应用。

我的观点不仅代表我个人,也代表我实验室多位老师,包括文本挖掘与情感分析技术方面的秦兵教授、赵妍妍博士,自然语言处理方面的车万翔副教授,问答领域的张宇教授、张伟男博士,社会媒体处理领域博士生丁效、景东讲师。也期望将来各位专家对我的同事们给予指点。

 

(没有打分)

2014十家最酷的大数据创业公司

商业和消费者正在产生TB乃至PB级数据,大量公司也加大了研发,致力于收集、存储、管理、分析数据。美国IT网站CRN评出了2014年大数据领域格外瞩目的十家新兴大数据创业公司,不妨一看。

 

近年来,很少有IT细分市场可以像大数据市场一样吸引企业家的关注。如今,商业和消费者正在产生TB乃至PB级数据,大量公司也加大了研发,致力于收集、存储、管理、分析数据。

 

以下是2014年大数据领域格外瞩目的十家新兴大数据创业公司

 

1. Aerospike

创始人和CTO:Brian Bulkowski

 

包括MongoDB、CouchBD和Redis等公司都在争夺下一代数据库的市场份额。Aerospkie创建于2009年,总部位于加州山景城。该公司研发了一组用于高性能应用的、实时的、闪存优化的NoSQL数据库。内存数据库满足可靠事务处理的ACID(原子性、一致性、隔离性、持久性)需求。Forensiq是一家提供在线广告诈骗检测服务的公司,11月Forensiq宣称其每个月需要用Aerospike提供的数据库处理1万亿次请求。年初Aerospike获得2000万美金的C轮融资。11月,Aerospike对数据库性能进行了优化,提升了存储能力,并进行了新功能和Hadoop的整合。

 

2. Altiscale

CEO: Raymie Stata

 

Hadoop在2014年很火,但是其大数据平台仍然十分复杂,并且很难用。这也是Altiscale和它的Hadoop服务引人注目的原因。Altiscale的服务主要目的是解决Hadoop的抽象性与复杂性,为工程师搭建一个完整的Hadoop环境,并且对其进行维护与管理,让用户可以更专注于他们的数据与应用。当客户的需求发生变化的时,Altiscale也会做出相应的调整与变化。他还可以将Apache Hadoop加上业务支持作为云服务进行交付。Altiscale,总部位于加州Palo Alto,成立于2012年。今年10月这家公司开始提供Hadoop上的SQL服务,这使得可以通过使用SQL用户接口或API访问Hadoop数据。Altiscale的高层包括CEO Raymie Stata和CTO David Chaiken都来自雅虎,雅虎也是Hadoop的发源地。这些人知道他们自己在做什么。这个月初Altiscale获得了3000万美元的二轮融资。

 

3. Databricks

CEO:Ion Stoica

 

2014年,Apache Spark是大数据领域最火的技术之一,它是一款可以像Hadoop一样提高大数据系统性能的内存数据处理引擎。这个开源软件来自加州伯克利大学的一个项目。Databricks提供了一个基于Spark的平台(该平台发布于六月),用于处理数据转换、探测、分析等大数据任务。2013年成立的Databricks公司不是一家以开源技术为噱头的创业公司。DatabrickCEOIon Stoica(加州伯克利大学的计算机科学的教授)和CTO Matei Zaharia创建了Spark,他们借助大数据一站式服务软件将他们的专业技术发挥的淋漓尽致。

 

4. DataStax

CEO:Billy Bosworth

 

DataStax是下一代数据库市场的另一个引领者,该公司支持Apache Cassandra。Apache Cassandra是高扩展性、容错的NoSQL数据库,思科、eBay和Twitter都在使用这种数据库。DataStax销售DataStax企业版,这是商化版本的Cassandra,还销售支持该平台的工具和服务。这个月初,公司推出了DSE4.6,其具备新的Spark流分析性能,这表明该公司开始涉足物联网。DataStax成立于2010年,总部位于加州圣克拉拉,在9月的E轮融资中获得惊人的1亿600万美元的融资,当下总计获得1.9亿美元融资。

 

5. DataTorrent

联合创始人兼CEO:Phu Hoang

 

DataTorrent是帮助用户即时处理、监控、分析数据的企业级实时流分析平台。该公司声称基于Hadoop的DataTorrent RTS系统每秒可以执行数亿次、甚至十亿次处理。当今,很多行业在大数据领域面临的一大挑战是延迟——如处理类似事务的流数据。DataTorrent的联合创始人兼CEO Phu Hoang曾在雅虎领导Hadoop的研发,也看到了类似Data Torrent RTS类产品的发展机会。这家在圣克拉拉的创业公司成立于2012,在该年6月发布了DataTorrent RTS,10月发布了RTS 2.0。

 

6. Qubole

联合创始人和CEO:Ashish Thusoo

 

基于Haddop的Qubole数据服务是一个云平台,企业可以用该平台存储和管理大量的结构化和非结构化数据,且可执行数据分析和一些其它任务。你可能说Qubole很自恋:公司注重于使自己的平台尽可能随着规模及其他内置管理性能进行自管理;此外,友好的用户交互自服务和数据整合功能都不需要数据科学家或程序员。该公司CEO Ashish Thusoo与印度总裁Joydeep Sen Sarma在2012年一起创立了Qubole。先前他们共同管理Facebook的数据基础建设团队,负责大数据处理,之后他们共同参与了Hadoop的Apache Hive数据仓储基础建设项目。月初,这家公司在B轮融资获得1300万美元融资。

 

7. Snowflake Computing

CEO: Bob Muglia

 

Snowflake Computing于10月悄然出现,推出了基于云的数据仓储服务,其服务定位是成为复杂、昂贵本地数据仓库系统的替代者,旨在实现灵活和易于管理等特性。Snowflake的Elatic数据仓储目前还是测试版,在未来将很有可能替代亚马逊网络服务Redshift和Google的Big Query。CEO Bob Muglia说:“Snowflake的Elastic数据仓储服务相较于本地数据仓储可以节省90%的成本,而且比竞争者AWS和Google的产品更易于使用。Snowflake Computing目前研发的数据库系统既可以处理结构化和半结构化的数据”

 

8. SumAll

CEO: Dane Atkinson

 

SumAll认为不仅大企业需要大数据分析,中小型也需要。这家在纽约的初创公司为企业提供了一个可以收集企业电子商务、邮件市场、社交媒体、广告系统(如谷歌的AdWords)上的数据并在一个互动可视化界面进行展示的在线分析平台。SumAll成立于2011年,侧重于产品的易用性,其产品不仅销往大企业,也销往中小型企业。该公司网站的统计数据显示,公司拥有23.3万的SumAll用户,获得1400万美元融资,雇员平均年龄32.6岁,每年消费22桶啤酒。

 

9. Tamr

联合创始人和CEO:Andy Palmer

 

大数据的一个问题是数据太大了,大数据通常有很多不同的数据源,而且这些数据源一直在变换。Tamr公司的软件通过机器学习技术为这些数据源提供单一视角,同时为企业提供一个完整的数据资产库存并寻找分布数据集之间的联系。该公司的技术最早来自MIT的计算机与人工智能实验室。2013年,数据库专家Michael Stonebraker、行业资深专家Andy Palmer和Ihab Ilyas共同创建了Tamr,今年5月,公司正式运行。同时,这家基于剑桥和麻省的公司筹集了1600万美元的风险投资。

 

10. WibiDat

联合创始人和CEO:Christophe Bisciglia

 

大家都很了解亚马逊可以为商户提供定制化的体验。位于旧金山的WibiData创建于2010年,研制了一款可提供类似服务的实时应用。该公司的Wibi企业平台使用先进的分析技术给消费者提供推荐、定制化的内容和相关搜索结果。该平台基于一组开源Apache技术,其中包括Hadoop、HBase和Cassandra,也包括用于实时收集、分析、服务数据的Kiji开源框架。年初该公司发布了WibiRetail,该应用是公司为零售商提供的首个“开箱即用”的应用。投资人包括谷歌董事长Eric Schmidt和Cloudera创始人Mike Olson。

(没有打分)

Hadoop之父聊大数据和他LOGO里的那只象!

(来自 英特尔商用频道 微信公众平台)

昨天晚上Hadoop之父Doug Cutting、Cloudera中国副总裁苗凯翔与英特尔中国研究院院长吴甘沙共聚北京iTALK一起畅聊大数据在中国的未来发展。道长也亲临现场一睹各位大咖真容。

 

英特尔中国研究院院长吴甘沙先生首先进行了分享。院长分别从数据的爆炸式发展、英特尔大数据的分析框架、研发布局以及与Cloudera在中国的合作进行几个方面进行了讲演。

 

 

大家经常听说在我们IT这个产业有这样一种指数的规律,而这样一种规律如果应用到传统的产业来说是不得了的事情。

 

下面这条曲线前面经过长时间的缓慢增长,一旦过了临界点以后,就会产生爆发式的增长,如果在这么一个时间点T,它是X的话,下一个时间点就是X的平方,如果X是一个大数的话,这样一个指数规律使得在任何一个周期里面,它的新的值将远远把前一个周期的值抛在后面。

 

 

比尔盖茨曾经有一个比喻:如果汽车产业像IT产业这么发展的话,到现在我们一辆汽车是25美金,一加仑汽油能够跑一千英里,这就是指数带来的威力。

 

大数据要说人话,它要提取人能够理解的价值,怎么能够让数据的工具跟我们的人,跟数据科学家,跟领域专家,跟我们的终端用户天人合一,降低数据分析的门槛,这又是一个挑战。

 

基于这些挑战,英特尔推出了大数据的分析框架,在最底层是基础设施,计算存储互联成为软件可定义,我们把它做成开放式、模块化的这些标准的模块,使得我们行业能够降低门槛,更多的创新者能够进来。

 

 

上面一层是数据平台,我们跟Cloudera一起推动基于Apache Hadoop开放、可信的数据处理平台,推动整个生态基础创新,上面是分析应用,我们希望能够把高级的分析功能平民化,使得它能够迈入主流的应用,使得它能够实现规模的经济。最上面是解决方案,我们跟生态系统伙伴一起构建示范性的解决方案,把它变成可扩展的参考架构,使得在示范的领域成功能够被复制到每一个行业、每一个企业上面去。

阅读全文»

(没有打分)

经典文献: 麦卡锡 。《大数据:下一个竞争、创新和生产力的前沿领域》

(没有打分)

Andrew Ng谈Deep Learning

《程序员》:Amara法则说,“我们倾向于高估科技的短期影响力,而又低估其长期影响力。”在你看来,Deep Learning的短期和长期影响分别是什么?历史上,我们曾对实现人工智能有过错误估计,对于Deep Learning的前景,人们是否过于乐观?

 

Andrew Ng:我对Deep Learning的前景很乐观,它的价值在过去几年已得到印证,未来我们还会沿着这个方向继续努力。语音识别、计算机视觉都将获得长足进步,数据与科技的碰撞,会让这一切变得更具价值。在短期,我们会看到身边的产品变得更好;而长期,它有潜力改变我们与计算机的交互方式,并凭借它创造新的产品和服务。

 

不过围绕Deep Learning,我也看到存在着某种程度的夸大,这是一种不健康的氛围。它不单出现于媒体的字里行间,也存在于一些研究者之中。将Deep Learning描绘成对人脑的模拟,这种说法颇具吸引力,但却是过于简化的模仿,它距离真正的AI或人们所谓的“奇点”还相当遥远。目前这项技术主要是从海量数据当中学习,理解数据,这也是现今有关Deep Learning技术研究和产品发展的驱动力。而具备与人的能力相匹配的AI需要无所不包,例如人类拥有丰富的感情、不同的动机,以及同感能力。这些都是当下Deep Learning研究尚未涉及的。

 

《程序员》:关于神经网络的研究,在很多方面依靠生物学、神经科学等领域。在你看来,Deep Learning的模型是否已经完善?若没有,目前最大的缺陷或困难在于何处?

 

Andrew Ng:Deep Learning模型尚未完善,主要存在两项挑战。一项是可扩展性,我们坐拥海量数据,却难以建造计算能力足够强大的计算机系统,处理这些数据。我青睐百度的原因之一,即在于它拥有复杂而强大的海量数据处理基础架构,但对Deep Learning来说,问题尚未得到解决。另一项挑战在于算法,我们也不知道恰当的算法是什么。从这两点看,尽管我们已取得了不小的进步,但前路依然漫漫。

 

《程序员》:为了开发智能机器,许多年前,Daniel Hillis和他的Thinking Machines曾尝试突破von Neumann架构,你觉得当今的硬件是否是实现智能机器的最好选择?如果不是,当前的计算机架构有哪些限制,我们需要做哪方面的突破?

 

Andrew Ng:这是一个有趣的话题。我们尚不知道怎样的硬件架构是智能机器的最佳选择,因而更需要拥有灵活性,快速尝试不同的算法。在这方面,GPU相对易于编程,因而可以高效地尝试不同的算法。作为对比,ASIC(专用集成电路)的运行速度比GPU更快,但开发适合Deep Learning的ASIC难度高、周期长,在漫长的研发过程中,很可能我们早已发现了新算法。

 

GPU与CPU结合是目前的首选硬件平台,不过随着技术的进一步成熟,这种现状有可能发生改观。例如,目前已有几家初创公司正在研发专门用于Deep Learning的硬件系统。

 

《程序员》:有一种说法是,对人脑机制理解的缺乏是我们开发智能机器的最大限制之一,在这个存在许多假设和未知的前沿领域进行研究,你怎样判断自己研究的方向和做出的各种选择是否正确?

 

Andrew Ng:诚然,神经科学尚未揭开人脑的运作机制,是对这项研究的一种制约。但如今我们尝试的算法,大多只是粗略地基于神经科学研究的统计阐释,这些研究启迪我们的灵感,鼓励我们尝试新算法。但现实中,我们更主要地依据算法真实的运行效果进行评判,假如一味追求模拟神经的运作方式,不一定能带来最优的结果。有时我们偏重神经科学原理,例如某些模拟大脑局部的算法;但更多时候,性能是准绳。若按比例划分,前者大约只占2%,后者则占据98%。

 

因为我们不知道何种算法最优,所以才不断尝试,衡量是否取得进步的方式之一(并非唯一方式),是观察新算法能否在应用中表现得更好,例如Web和图像搜索结果是否更准确,或者语音识别的正确率更高。假如回望五年,你就会发现,那时我们曾认为颇有前景的算法,如今已然被抛弃。这些年,我们有规律地,甚至偶然地发现一些新算法,推动着这个领域持续前进。

 

《程序员》:关于Deep Learning的原理,已有许多人知晓。为了做出一流研究和应用,对于研究者来说,决胜的关键因素是什么?为何如今只有少数几人,成为这个领域的顶尖科学家?

 

Andrew Ng:关于决定因素,我认为有三点最为关键。

 

首先是数据,对于解决某些领域的问题,获取数据并非轻而易举;其次是计算基础架构工具,包括计算机硬件和软件;最后是这个领域的工程师培养,无论在斯坦福还是百度,我都对如何快速训练工程师从事Deep Learning研究,成为这个领域的专家思索了很长时间。幸运的是,我从Coursera和大学的教学经历中获益良多。创新往往来自多个观念的整合,源于一整支研究团队,而非单独一个人。

 

从事Deep Learning研究的一个不利因素在于,这还是一个技术快速发展的年轻领域,许多知识并非依靠阅读论文便能获得。那些关键知识,往往只存在于顶尖科学家的头脑中,这些专家彼此相识,信息相互共享,却不为外人所知。另外一些时候,这群顶尖科学家也不能确定自己的灵感源于何处,如何向其他人解释。但我相信,越来越多的知识会传递给普通开发者;在百度,我也正努力寻找方法,将自己的灵感和直觉高效地传授给其他研究者。尽管我们已有这方面的教程,但需要改进之处仍有很多。

 

此外,许多顶尖实验室的迭代速度都非常快,而Deep Learning算法复杂,计算代价很高,这些实验室都拥有优秀的工具与之配合,从快速迭代中学习进步。

 

《程序员》:十年前,Jeff Hawkins在《On Intelligence》中已经向普通人描述了机器与智能之间的关系,这些描述与我们现在看到的Deep Learning似乎非常相似。在这最近的十年中,我们新学到了什么?

 

Andrew Ng:包括我在内,Jeff Hawkins的作品启发了许多AI研究者,多年以前,我个人还曾是Hawkins这家公司的技术顾问之一。但在现实中,每个人的实现细节和算法迥异,与这本书其实颇有不同。例如在书中,Hawkins极为强调与时间相关的临时数据的重要性,而在Deep Learning中,虽然用到了临时数据,但远没有那重要,另外网络的架构也大不相同。在最近十年中,我们认识到了可扩展的重要性,另外我们还找到了进行非监督式学习更好的方式。

 

关于工作选择

 

《程序员》:为什么选择百度开展你的工作,它的哪些特点,是你觉得其他公司所不具备的?

 

Andrew Ng:我喜欢在任务高度驱动的环境下工作,通常我是这些任务的发起者。我为能更好地发展AI,令互联网上的每个人都能从中受益而兴奋。

 

几个月前,我仔细评估了几个选项后,决定加入百度。一方面在于王劲团队打造了非常优秀的基础设施,同时百度还拥有庞大的数据。另一方面,我为百度的灵活快速所吸引,当我的朋友余凯和徐伟决定搭建GPU集群,马上就得到了实现,此外没有任何一家公司推出Deep Learning产品的速度快过这里,而且还是应用在互联网广告这种核心业务上。对于Deep Learning这样未知因素很多的技术来说,灵活性至关重要。我还发现北京的互联网公司讨论的往往是日活跃用户,而在硅谷则是月活跃用户,或许这也可以作为灵活性的一个注解。

 

还有一点我很少谈起,却非常重要——因为这里的人。与他们相处,我感到非常愉快。当我开始在百度工作后,妻子Carol曾对我说,她从未见过我如此努力,却又如此开心。

 

《程序员》:你在百度的研究产品和成果能为外界带来什么(例如是未来否有可能将你的成果共享给其他人,推动整个领域的发展)?

 

Andrew Ng:我希望能将成果与外界分享,也许不是所有内容都适合,但希望通过某种形式,分享我们的研究。不过我加入的时间尚短,接下来我希望能有更多成果可以公布。

(1个打分, 平均:5.00 / 5)

大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

Spark作为Apache顶级的开源项目,项目主页见http://spark.apache.org。在迭代计算,交互式查询计算以及批量流计算方面都有相关的子项目,如Shark、Spark Streaming、MLbase、GraphX、SparkR等。从13年起Spark开始举行了自已的Spark Summit会议,会议网址见http://spark-summit.org。Amplab实验室单独成立了独立公司Databricks来支持Spark的研发。

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支。Spark集群已稳定运行2年,我们积累了大量的案例和运营经验能力,另外多个业务的大数据查询与分析应用,已在陆续上线并稳定运行。在SQL查询性能方面普遍比MapReduce高出2倍以上,利用内存计算和内存表的特性,性能至少在10倍以上。在迭代计算与挖掘分析方面,精准推荐将小时和天级别的模型训练转变为Spark的分钟级别的训练,同时简洁的编程接口使得算法实现比MR在时间成本和代码量上高出许多。

Spark VS MapReduce

尽管MapReduce适用大多数批处理工作,并且在大数据时代成为企业大数据处理的首选技术,但由于以下几个限制,它对一些场景并不是最优选择:

 

  • 缺少对迭代计算以及DAG运算的支持
  • Shuffle过程多次排序和落地,MR之间的数据需要落Hdfs文件系统

 

Spark在很多方面都弥补了MapReduce的不足,比MapReduce的通用性更好,迭代运算效率更高,作业延迟更低,它的主要优势包括:

 

  • 提供了一套支持DAG图的分布式并行计算的编程框架,减少多次计算之间中间结果写到Hdfs的开销
  • 提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销
  • 使用多线程池模型来减少task启动开稍,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作
  • 广泛的数据集操作类型

 

MapReduce由于其设计上的约束只适合处理离线计算,在实时查询和迭代计算上仍有较大的不足,而随着业务的发展,业界对实时查询和迭代分析有更多的需求,单纯依靠MapReduce框架已经不能满足业务的需求了。Spark由于其可伸缩、基于内存计算等特点,且可以直接读写Hadoop上任何格式的数据,成为满足业务需求的最佳候选者。

应用Spark的成功案例

目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。

这些应用场景的普遍特点是计算量大、效率要求高。Spark恰恰满足了这些要求,该项目一经推出便受到开源社区的广泛关注和好评。并在近两年内发展成为大数据处理领域最炙手可热的开源项目。

本章将列举国内外应用Spark的成功案例。

1. 腾讯

广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿的请求量。

基于日志数据的快速查询系统业务构建于Spark之上的Shark,利用其快速查询以及内存表等优势,承担了日志数据的即席查询工作。在性能方面,普遍比Hive高2-10倍,如果使用内存表的功能,性能将会比Hive快百倍。

2. Yahoo

Yahoo将Spark用在Audience Expansion中的应用。Audience Expansion是广告中寻找目标用户的一种方法:首先广告者提供一些观看了广告并且购买产品的样本客户,据此进行学习,寻找更多可能转化的用户,对他们定向广告。Yahoo采用的算法是logistic regression。同时由于有些SQL负载需要更高的服务质量,又加入了专门跑Shark的大内存集群,用于取代商业BI/OLAP工具,承担报表/仪表盘和交互式/即席查询,同时与桌面BI工具对接。目前在Yahoo部署的Spark集群有112台节点,9.2TB内存。

3. 淘宝

阿里搜索和广告业务,最初使用Mahout或者自己写的MR来解决复杂的机器学习,导致效率低而且代码不易维护。淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等。将Spark运用于淘宝的推荐相关算法上,同时还利用Graphx解决了许多生产问题,包括以下计算场景:基于度分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等。

4. 优酷土豆

优酷土豆在使用Hadoop集群的突出问题主要包括:第一是商业智能BI方面,分析师提交任务之后需要等待很久才得到结果;第二就是大数据量计算,比如进行一些模拟广告投放之时,计算量非常大的同时对效率要求也比较高,最后就是机器学习和图计算的迭代运算也是需要耗费大量资源且速度很慢。

最终发现这些应用场景并不适合在MapReduce里面去处理。通过对比,发现Spark性能比MapReduce提升很多。首先,交互查询响应快,性能比Hadoop提高若干倍;模拟广告投放计算效率高、延迟小(同hadoop比延迟至少降低一个数量级);机器学习、图计算等迭代计算,大大减少了网络传输、数据落地等,极大的提高的计算性能。目前Spark已经广泛使用在优酷土豆的视频推荐(图计算)、广告业务等。

Spark与Shark的原理

1.Spark生态圈

如下图所示为Spark的整个生态圈,最底层为资源管理器,采用Mesos、Yarn等资源管理集群或者Spark自带的Standalone模式,底层存储为文件系统或者其他格式的存储系统如HBase。Spark作为计算框架,为上层多种应用提供服务。Graphx和MLBase提供数据挖掘服务,如图计算和挖掘迭代计算等。Shark提供SQL查询服务,兼容Hive语法,性能比Hive快3-50倍,BlinkDB是一个通过权衡数据精确度来提升查询晌应时间的交互SQL查询引擎,二者都可作为交互式查询使用。Spark Streaming将流式计算分解成一系列短小的批处理计算,并且提供高可靠和吞吐量服务。

2.Spark基本原理

Spark运行框架如下图所示,首先有集群资源管理服务(Cluster Manager)和运行作业任务的结点(Worker Node),然后就是每个应用的任务控制结点Driver和每个机器节点上有具体任务的执行进程(Executor)。

与MR计算框架相比,Executor有二个优点:一个是多线程来执行具体的任务,而不是像MR那样采用进程模型,减少了任务的启动开稍。二个是Executor上会有一个BlockManager存储模块,类似于KV系统(内存和磁盘共同作为存储设备),当需要迭代多轮时,可以将中间过程的数据先放到这个存储系统上,下次需要时直接读该存储上数据,而不需要读写到hdfs等相关的文件系统里,或者在交互式查询场景下,事先将表Cache到该存储系统上,提高读写IO性能。另外Spark在做Shuffle时,在Groupby,Join等场景下去掉了不必要的Sort操作,相比于MapReduce只有Map和Reduce二种模式,Spark还提供了更加丰富全面的运算操作如filter,groupby,join等。

Spark采用了Scala来编写,在函数表达上Scala有天然的优势,因此在表达复杂的机器学习算法能力比其他语言更强且简单易懂。提供各种操作函数来建立起RDD的DAG计算模型。把每一个操作都看成构建一个RDD来对待,而RDD则表示的是分布在多台机器上的数据集合,并且可以带上各种操作函数。如下图所示:

首先从hdfs文件里读取文本内容构建成一个RDD,然后使用filter()操作来对上次的RDD进行过滤,再使用map()操作取得记录的第一个字段,最后将其cache在内存上,后面就可以对之前cache过的数据做其他的操作。整个过程都将形成一个DAG计算图,每个操作步骤都有容错机制,同时还可以将需要多次使用的数据cache起来,供后续迭代使用。

3.Shark的工作原理

Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,如果是纯内存计算的SQL,要快5倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。

上图就是整个Shark的框架图,与其他的SQL引擎相比,除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shark上。

与Hive相比,Shark的特性如下:

1.以在线服务的方式执行任务,避免任务进程的启动和销毁开稍,通常MapReduce里的每个任务都是启动和关闭进程的方式来运行的,而在Shark中,Server运行后,所有的工作节点也随之启动,随后以常驻服务的形式不断的接受Server发来的任务。

2.Groupby和Join操作不需要Sort工作,当数据量内存能装下时,一边接收数据一边执行计算操作。在Hive中,不管任何操作在Map到Reduce的过程都需要对Key进行Sort操作。

3.对于性能要求更高的表,提供分布式Cache系统将表数据事先Cache至内存中,后续的查询将直接访问内存数据,不再需要磁盘开稍。

4.还有很多Spark的特性,如可以采用Torrent来广播变量和小数据,将执行计划直接传送给Task,DAG过程中的中间数据不需要落地到Hdfs文件系统。

腾讯大数据Spark的概况

腾讯大数据综合了多个业务线的各种需求和特性,目前正在进行以下工作:

1.经过改造和优化的Shark和Spark吸收了TDW平台的功能,如Hive的特有功能:元数据重构,分区优化等,同时可以通过IDE或者洛子调度来直接执行HiveSql查询和定时调度Spark的任务;

2.与Gaia和TDW的底层存储直接兼容,可以直接安全且高效地使用TDW集群上的数据;

3.对Spark底层的使用门槛,资源管理与调度,任务监控以及容灾等多个功能进行完善,并支持快速的迁移和扩容。

(没有打分)

The Mathematics of Romance (2):Same you, while attractive to more

The Mathematics of Romance (2):Same you, while attractive to more

副标题:头像那些事儿

废话不多说:这是个看脸的社会。

社交网站(屌丝级的新浪微博,或意识形态上高攀不起的Facebook or Twitter),求职网站(这个……),还有相亲网站……好像很难想到一个不需要上传头像(或personal profile)的网络服务。而彩笔都很难记清,从什么时候开始,人类(或具体地说祖国人民)进入网络时代,男女老少逐渐都有了自己难以割舍的网络服务。

对任何(正常)人来说,无论什么情境下的头像,都是一个展示自己的渠道。展示自己长得好看,展示自己逼格很高,展示自己的人生理想,展示自己的三观。

展示的目的是吸引。不知道“正常”的人们都怎么看,“吸引”在彩笔看来是个很暧昧的词儿。当“相互吸引”关系确立时,后面的事情就不好说了。但无论如何都是很有趣的事情,你值得拥有哦。

插注:前面一段话实质上与本文、大数据关系不大,但因彩笔坚信“文以言志”,而彩笔的是传递价值观,所以这些内容也不是完全没有必要。

 

本文关于头像选择,更具体的说,是相亲网站用户的头像选择(不负责任一点地说,社交网站也是类似的逻辑吧)——因为原始数据来自相亲网站的用户(看过preliminary的读者应该知道了)。

我想,所有人都会不同程度的同意下面这句话:

No matter how much time you spend polishing your profile, honing your IM banter, and perfecting your message introductions, IT’S YOUR PICTURE THAT MATTERS MOST.

 

一、谁敢说自己“不看脸”

这就是一个看脸的社会,don’t deny it。(我又没说只看脸)

1. 对异性的评价与挑选目标

旁白:题目中的评价挑选并不矛盾。假设所有人都给章子怡5分(满分5分)(此之谓评价),但并非所有人在挑选去民政局登记的对象的时候,均是以子怡为首选(此之谓定制目标)。弱水三千,只取一瓢饮,这里无需多言吧。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

两张图中的虚线表示的是各个性别群体对异性的评价分布(数据来源及操作方法将在文章结尾处尽表)。粗实线表示的是他们/她们向异性发送消息的比例分布。

从图中可以看出,男性对女性的(整体)评价(左图虚线)接近对称,但是在挑选“目标”的时候他们的倾向性非常明显(还需要彩笔明说嘛[捂嘴笑])。女性对男性的评价分布(右图)用“苛刻”来形容毫不为过。大多数(80%)男性在她们看来是worse-looking than medium,然而在选择发送信息的对象时,她们又变得宽容。

产生这种差异的原因值得玩味,但不在此处细表。图中的数据似乎是在告诉我们:不管长成什么样(异性对“你”的评价如何)都会收到信息(在这篇文章中,彩笔不想纠结群体与个体的关系——群体有并不代表群体中的每个个体都有)。而在本文中,我们用到的信息是:对于女孩子,头像中的你长得越漂亮,收到的信息就越多;男性的话,好难讲,彩笔一直觉得女性从男性那里寻求的并非“美颜”,所以才会出现上图中的神奇分布,但至少头像中的形象能让女性找到她们寻求的某样东西或某种感觉。

 

2. 数量化ATTRACTIVENESS

之前说到,头像在异性们心目中的好看程度与最终收到的信息数量是有关系的,并且按照“常理”,越好看的人收到的信息数量就越多(姑且忽略男女两性在对对方评价以及最终挑选目标时的差异)。

 

 

 

 

 

 

 

 

 

 

 

图中的信息呼之欲出:长相(头像)越好看的人,收到的信息越多(注意:纵坐标是“倍数”,而非绝对数量哦)。Female recipients的曲线斜率的增加速度快过male recipients——原来我们的小伙子们都是行动派嘛。

对于任何一个读到这里的读者,在此刻可以确认头像的重要性了吧。

 

3. 成功率与头像(长相)

前面讲的都是作为一个被动的receiver,头像与接收到的求*信息数量的关系。这一节中,展示的是作为sender,信息被回复(即“求*初步成功”)与头像的关系。长得好看的人收到的信息越多,那么发出的求*信息的成功率(被回复)是否也越高呢?请看下图。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

根据图表中的信息,说“越好看的人发出去的信息成功率越高”好像可以,但也好像有点牵强。Most attractive male senders在least attractive female recipients会遇到点挫折呢。不过还好,总的来说,也是“越好看,成功率就越高”的啦(如下图)。然后姑娘的成功率弱弱的高于小伙子们(果然,在社会大家庭中,蓝孩纸还是很照顾铝孩纸的)。

 

 

 

 

 

 

 

 

 

 

 

 

二、选头像时的does and don’ts

人就长成这无法被拯救的样子了,但是头像还是可以挽回一些的。能挽回多少?就看你怎么玩儿了~

1. FACIAL ATTITUDE

头像中的表情与每月新增联系人的数量关系如下。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

从图中可以看出,对于女生来说,笑比不笑的效果(吸引力)好,但是效果最好的头像表情是flirty-face。但要注意flirty face要对着镜头,如果没对镜头的话,可能会是相反的作用。男生的情况相对简单了:look away from the camera and don’t smile。

 

2. The MySpace Angle is busted.

The universally-maligned MySpace angle is achieved by holding your camera above your head and being just so darn coy.——我大中华的仰拍什么的,原来在异国他乡是有名字的啊!

 

 

 

 

 

 

这种自拍类照片往往是头像界所不齿的类型,然而,它在吸引新联系人(女性吸引男性)方面有着意料之外的正面效果,如下图。

 

 

 

 

 

 

 

 

 

 

 

 

这让研究人员百思不得其解,the Myspace shot对于女性来说几乎是唯一一种有效的照片类型。研究人员怀疑过,是否是因为这样的角度能够获得从上往下看女生上衣的角度(这么说十分隐晦,不过……应该能懂吧)。但当研究者将所有“能看到”的照片剔除,重复分析,得到的结果是一样的。甚至,the Myspace shot的效果还要好于直接“露”,嗯。

 

3. Guys should keep their shirts on.

同样与人类常识相反的是“男生秀腹肌”。在人们的印象中,Ab shot通常让人觉得PO主很二。然而实际的情况是这样的:

 

 

 

 

 

 

 

 

 

 

 

研究人员认为产生这种现象的原因是:Normally,将此类照片作为头像的人都有show off的资本,and naturally the best bodies get lots of messages。但是,如果是这个原因让这类照片火了的话,这个举措就不适合推荐给所有男士了哦。

 

4. Make sure your face is showing(?)

OkCupid过去是将露脸作为推荐项(强制项)出现在用户提交personal profile的页面的,然而in fact, not showing your face can be a positive, as long as you substitute in something unusual, sexy, or mysterious enough to make people want to talk to you.成功的例子如下:

 

 

 

 

 

 

 

 

 

 

 

这些用户收到的信息数远高于一般水平,但他们并没有很出众的个人介绍,正是他们的头像帮助他们达成了这样的效果。

写到这里,好像又与初衷矛盾了——不是说,这是个看脸的社会么?我想这个问题大家随意思考一下就可以了,无需彩笔给出一个答案(或答案之一)。而且我在最开始的时候就说过了:我又没说“只”看脸。

 

数据来源与操作方法

The data set was chosen at random from all users in big cities, with only one profile photograph, between the ages of 18 and 32. We then lopped the most and least attractive members of the pool, fearing that they would skew our results. So all the data in this post is for “average-looking people.”

 

We finalized our data pool at 7,140 users. Aside from running each picture through a variety of analysis scripts, we tagged, by hand, each picture for various contextual indicators. We double-checked the tags before generating our data.

 

To quantify “profile success” for women, we used new messages received per active month on the site.

 

We had to do something different than this for guys, because of the fundamentally different role they play in the online courtship process: they are the ones reaching out to new people; women send only a small fraction of the unsolicited “hellos” that men do. As you’ve seen, the metric we settled on is, “women met per attempt”, which is:

(new incoming messages + replies to outgoing first contacts) / outgoing first contacts

 

Basically, this is how many women a guy has a conversation with, per new woman he reaches out to, and we feel it’s the best way to measure his success per unit time on OkCupid. Note that if a guy has a particularly compelling photo, this ratio could exceed 1, as he’d be getting messages from the women who come across his profile, as well as the women he himself is reaching out to.

 

总结

多么有意思的结论。而且,是这么多有意思的结论。

不曾跟进过笔者其他文章的读者是否压根看不到这里:这跟大数据有半毛钱关系?!

其实此时此刻的彩笔根本压抑不住内心的狂热,想要大声告诉任何人:在有“大数据”(好吧,彩笔必须承认,这里的大数据定义有些模糊)之前,这些事情是无法做到的。——虽然其实不是,或者彩笔也不能确定的知道是或者不是。

 

在系列“GFT你这么diao,你的伪粉丝们造吗”最后一篇文章的结尾,笔者提出,GFT内生的一个drawback是:GFT自身是大数据的一套方法体系,然而它却是为预测一个由传统的统计方法得到的数据而存在的。在这种交错中,没有人知道伴生着什么问题(影响预测的准确性,或者对“准确性”的解读)。

在Lazer的文章[1]中也给出建议:Google可以通过combine big data and small data来优化预测过程。笔者认为,OKCUPID的这群研究人员做到了,或者说做了很好的尝试。

这个研究团队的主要成员已经在本系列的第一篇文章(约2个月前[惭愧])中有过简单介绍。

关于头像,他们在证明头像中人物的“质量”与收到陌生人信息的数量之间的相关关系甚至数量关系的基础上[参考文章6],还总结了拍摄照片的技巧[参考文章4](当然是以吸引力为衡量标准)以及头像内容与吸引力[参考文章3](收到陌生人信息数量)的关系,另外还从男性心理的角度出发,指导女性选择头像[参考文章2]。作为成果之一,他们还一度提供一项帮你判断哪张照片更适合作为头像的服务[参考文章5]。

作为一个基于online dating网站的研究团队,他们的兴趣内容还涉及发给对方的第一句话怎么说更容易收到回复?第一次约会怎样操作更容易lead to下一次?等等。

按照国内学术圈的惯用标准,既有科学意义,又有实践意义,“业界良心”好好嘛!

 

另注:

这真的是一篇关于大数据的文章(很难理解么)。之前的系列“the Big Data Concerns You HOW”出街之后,相信仍然会有不死心人士。本文提到的这类“工作”的门槛低,成就高(我就随口说说而已,哪有这么容易的事),不失为一个很好的切入角度。

这真的是一篇关于大数据的文章,所以我没有任何念头教读者如何选头像。将原科研人员的数据来源以及预处理过程交代清楚,其目的除了将原作拖下神坛,方便更多的不死心人士踩踏入门之外。另外一个目的也是告诉读者,这虽然是一个“大数据案例”,但也有其内源性的适用对象。虽然,作为参考而借鉴是没什么的。

——在这里也要深刻反思对“大数据”的界定模糊。

 

相关文献:

[1] Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.

[2] The Mathematics of Beauty, 2011.01.10, Christian Rudder:http://blog.okcupid.com/index.php/the-mathematics-of-beauty/

微信公众账号《数据分析》的一篇文章基本算是原文的译文,但是没有标注任何引用,着实可耻:

大数据分析看如何成为美人。[八卦]2014.04.18:mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=200226343&idx=1&sn=714db607d786fab9504080fc4617815c#rd

[3] The 4 Big Myths of Profile Pictures, 2010.01.20, Christian Rudder, http://blog.okcupid.com/index.php/the-4-big-myths-of-profile-pictures/

[4] Don’t Be Ugly by Accident, 2010.08.10, Christian Rudder, http://blog.okcupid.com/index.php/dont-be-ugly-by-accident/

[5] What Is Your Best Profile Picture, 2010.05.06, Christian Rudder, http://blog.okcupid.com/index.php/my-best-face/

[6] Your Looks and Your Inbox, 2009.11.17, Christian Rudder, http://blog.okcupid.com/index.php/your-looks-and-online-dating/

(1个打分, 平均:5.00 / 5)

大数据 。社会医疗健康

(没有打分)

美国白宫 。大数据 。《BIG DATA: SEIZING OPPORTUNITIES, PRESERVING VALUES》

(没有打分)

大数据跟“所有人”什么关系(下) ——写给“普通人”看的“Big Data Concerns You How”

大数据跟“所有人”什么关系(下)

——写给“普通人”看的“Big Data Concerns You How”

废话不多说,续前文。

 

三、哎呀我说人类啊

本小节标题请用二手玫瑰(artist)《命运(生存)》一曲中“哎呀我说命运呐对应的旋律来发声。

彩笔黄是个很矫情的人,表现之一是不喜欢回答一些明明是哲学范畴,却被世俗的搞不清楚状况的人问出来,然后还不得不回答。比如常见于门卫大哥小哥的“你是谁?”、“你从哪里来?”、“你要到哪里去?”,[抓狂]真的是完全不知道要如何开口。

随着社会生活内容的增多,这种奇葩问题的来源也越来越多,招架不住。比如美容店、理发店或者美甲的地方,这类服务往往要以小时计(一困就是若干小时的节奏)。服务人员通常会找话题。常见的除了“你从哪里来?”之外,笔者遭遇最多的就是“你是做什么的?”

而这个问题,真!的!很!复!杂!

简单地说,笔者是做“数据分析”的。但在笔者看来,这四个字说!了!等!于!没!说!啊!笔者很抵触这样明摆着会造成误解的答案。可是,第一次被问时不说,便会有“下次”。这些天真的人们不知道有没有想清楚便执着地强迫我给出答案(我不知道他们为什么觉得我一定要说,大约正如他们不知道我为什么会不想说)。于是彩笔只得勉强挤出那四个字“数据分析”。

然而,出人意料,彩笔给出答案之后,对方会仿佛什么都知道了似的“哦~~~~~”(“我还以为是什么呢,这个我知道啊”之类的)。这让笔者很不舒服。

彩笔黄深知自己给不出可以让人“哦~~~~~”的答案(并深刻质疑这个世界上究竟是否存在对数据分析这个职业的一致的认识)。So,作为信息源的我并没有输出“数据分析”的清晰认识,为什么接收方会认为自己“知道了”呢?彩笔很痛苦。

痛点1:我热爱数据分析这个职业,但是谈到对“数据分析”本体的认识,目前的现状还很复杂,不是百废待兴,而是群魔乱舞;彩笔不知道为什么要在一个休闲放松的时候、如何跟一个处理身体美容的孩子介绍这个话题(我知道是我考虑问题太严肃了,我就是不想敷衍)。

痛点2:在我明明没有说清楚的前提下,那些人,凭什么以为自己理解了!(彩笔觉得这很荒谬,也让彩笔很气愤)

 

说着这么一大段有的没的(但绝对不是可有可无的),是为了引出下面要用到的这种先进的价值观:

1. 世界上也许根本没有communication,只有每个人兀自地talking。就像笃信外星人存在的组织和个体不间断地向外太空发送信号一样,漫无目的,却满怀希望。地球上的人类个体之间是不是也是这样:我们都以为自己会被理解而不停地向外界发送有关我们自己的描述。因为视野中从不缺少“同类”,所以我们会过高的估计被理解的可能性。以为自己是在跟对面的人communicating,但其实只不过是大家互相各自你说一句,我说一句(如果有人固执地把这种行为叫做communication)。

2. 所以我们根本没资格谈论understanding,在生存或相处中,我们的选项只有一个:compromise。

 

如此粗略地介绍一个道听途说、但是很伟大的价值观,彩笔无非是想表达:即便你找到一个人(你认为的、或你认为业内公认的能够把大数据的前生今世说清道明的人,或者不是一个人,而是一个可以实现上述功能的虚拟对象),TA说的,你又能领悟多少(当然你永远可以觉得,你领悟了,或多或少)?

 

四、一个虚构的例子

究竟什么是大数据?让我们看个虚构的例子(网上转载,出处不明,如有需要,原作者可与本人联系):

某披萨店的电话铃响了,客服人员拿起电话。

客服:***披萨店。您好,请问有什么需要我为您服务?

顾客:你好,我需要一份……

客服:先生,麻烦您告诉我您的会员卡号。

顾客:16846146***

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家的电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜披萨。

客服:陈先生,海鲜披萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,您的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康披萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。

顾客:好,那我要一个家庭特大号披萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款。因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把披萨送到我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录,您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客当场晕倒。

 

这是个极一般的网络段子而已,语言很粗糙,逻辑也有很多经不起推敲的地方。但话糙理不糙,其中涉及到一个社会人日常生活的若干方面:经济信息、健康信息、实时的位置信息,还有现代社会基础服务如图书馆,甚至包括个体之间的关系信息(或曰户籍信息?),以及基础规则(比如健康与饮食、历史经济信息与将来的经济行为的对应等)。任何一个人(一般人/普通人),都很难讲自己的信息完全脱离与上述系统之外。

 

所以,对于大多数人,大数据是一种全新的服务形式,而已。LET IT FLOW,放松全身心,JUST ENJOY IT,不需要想太多。

 

写在最后的话

以管窥豹,可见一斑。简单的说,这篇文章的意思是:如果你不知道大数据是什么,那么,说不定你压根就不需要知道大数据是什么。或者,你知道的也是不准的。而且即便找到别人”跟你说,你也不会明白。对于其工作逻辑来讲,就这么回事儿。把它作为你的苹果手机,你不需要因为不知道它的供应链、制造商的运作而感到焦虑,你会用它打电话、发短信、接入互联网享受五彩斑斓的Web服务,就够了。

(6个打分, 平均:2.00 / 5)