【刘挺】自然语言处理与智能问答系统

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




节选自微博:杨静Lillian

【刘挺】哈尔滨工业大学教授,社会计算与信息检索研究中心主任,2010-2014年任哈工大计算机学院副院长。中国计算机学会理事、曾任CCF YOCSEF总部副主席;中国中文信息学会常务理事、社会媒体处理专业委员会主任。曾任“十一五”国家863 计划“中文为核心的多语言处理技术”重点项目总体组专家, 2012 年入选教育部新世纪优秀人才计划。主要研究方向为社会计算、信息检索和自然语言处理,已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863计划项目等各类国家级科研项目20余项,在国内外重要期刊和会议上发表论文80余篇,获2010年钱伟长中文信息处理科学技术一等奖,2012 年黑龙江省技术发明二等奖。

 

【刘挺】大家好,我是哈工大刘挺。感谢杨静群主提供的在线分享的机会。2014年11月1-2日,第三届全国社会媒体处理大会(Social Media Processing, SMP 2014)在北京召开,12个特邀报告,800多名听众,大会充分介绍了社会媒体处理领域的研究进展,与会者参与热情很高,2015年11月将在广州华南理工大学大学举办第四届全国社会媒体处理大会(SMP 2015),欢迎大家关注。

今晚我想多聊一聊与自然语言处理与智能问答系统相关的话题,因为这些话题可能和“静沙龙”人工智能的主题更相关。欢迎各位专家,各位群友一起讨论,批评指正。

 

IBM沃森与智能问答系统

 

【杨静lillian】刘挺教授在自然语言处理、数据挖掘领域颇有建树。腾讯、百度、IBM、讯飞、中兴等企业都与他有合作,他还研发了一个基于新浪微博的电影票房预测系统。

近年来,IBM等企业将战略中心转移到认知计算,沃森实际上就是一个智能问答系统。刘教授谈谈您在这方面的研发心得?

 

【刘挺】我们实验室是哈尔滨工业大学社会计算与信息检索研究中心,我们的技术理想是“理解语言,认知社会”。换句话说,我们的研究方向主要包括自然语言处理(Natural Languge Processing, NLP)和基于自然语言处理的社会计算,此次分享我重点谈自然语言处理。

1950年图灵发表了堪称“划时代之作”的论文《机器能思考吗?》,提出了著名的“图灵测试”,作为衡量机器是否具有人类智能的准则。2011年IBM研制的以公司创始人名字命名的“沃森”深度问答系统(DeepQA)在美国最受欢迎的知识抢答竞赛节目《危险边缘》中战胜了人类顶尖知识问答高手。

【白硕】深度,是从外部观感评价的,还是内部实现了一定的功能才算深度?

【刘挺】白老师,我认为深度是有层次的,沃森的所谓“深度问答”是和以往的关键词搜索相比而言的,也是有限的深度。IBM沃森中的问题均为简单事实型问题,而且问题的形式也相对规范,比如:“二战期间美国总统是谁。”

【白硕】要是问二战时美国总统的夫人是谁,估计就不好做了。

【刘挺】相应的,2011年苹果公司在iPhone 4s系统里面推出Siri语音对话系统,引起业内震动。百度、讯飞、搜狗先后推出类似的语音助手。但近来,语音助手的用户活跃度一般,并没有达到预期的成为移动端主流搜索形式的目标。

语音助手产品在有的互联网公司已基本处于维持状态,而不是主攻的产品方向,这背后的核心原因一方面是虽然语音技术相对成熟,但语言技术还有很多有待提高的空间,无法理解和回答用户自由的提问;另一方面,对生活类的查询用菜单触摸交互的方式,用户使用起来更便捷。

因此,但无论IBM沃森还是苹果Siri距离达到人类语言理解的水平仍有很大的距离,智能问答系统还有很长的路要走。

 

【胡颖之】@刘挺 这个问题我们调研过,不知国外情况如何,大部分人觉得,在外对着手机自言自语有点尴尬,且往往还需要调整识别不准的词。如果是一问一答,就直接电话好了,不需要语音。

【刘挺】IBM沃森在向医疗、法律等领域拓展,引入了更多的推理机制。认知计算成为IBM在智慧地球、服务计算等概念之后树起的一面最重要的旗帜。

【杨静lillian】深度问答系统转型成了智能医疗系统。请问我国企业怎么没有开发这种基于认知计算的智能医疗系统?

【刘挺】相信不久的将来,我国的企业就会有类似的系统出炉。百度的“小度”机器人日前参加了江苏卫视的“芝麻开门”就是一个开端。不过,当前我国的互联网公司似乎对微创新、商业模式的创新更感兴趣,而对需要多年积累的高技术密集型产品或服务的投入相对不足。IBM研制沃森历时4年,集中了一批专家和工程师,包括美国一些顶尖高校的学者,这种“多年磨一剑”的做法是值得学习的。

 

【杨静lillian】一个问题。百度的资料说小度机器人是基于语音识别的自然语言处理机器人,而沃森是视觉识别(扫描屏幕上的问题)。沃森到底是怎么进行问答的?

【刘挺】沃森不能接收语音信息及视频信息,因此比赛时主办方需要将题目信息输入沃森中,便于沃森理解题目。并且,Watson只利用已经存储的数据,比赛的时候不连接互联网。沃森不可以现场连接互联网,也是为了避免作弊的嫌疑。不过,如果让机器扫描印刷体的题目,以当前的文字识别技术而言,也不是难事。

【杨静lillian】原来这样,那么它会连接自己的服务器吧?可以把沃森看成一台小型的超级计算机?

【白硕】意思是服务器也部署在赛场。

 

【罗圣美】刘老师,IBM说的认知技术核心技术是什么?

【刘挺】罗总,IBM认知计算方面的核心技术可以参考近期IBM有关专家的报告,比如IBM中国研究院院长沈晓卫博士在2014年中国计算机大会(CNCC)上的报告。

 

 

高考机器人与类人智能系统

 

【刘挺】国家863计划正在推动一项类人智能答题系统的立项工作,目标是三年后参加中国高考,该系统评测时同样禁止连接互联网,答题需要的支撑技术事先存储在答题机器人的存储器中。

【杨静lillian】您说的这个就是讯飞的高考项目。哈工大与讯飞有个联合实验室,是从事相关研究么?

【刘挺】目前,863在规划的类人答题系统包含9个课题,以文科类高考为评价指标,讯飞公司胡郁副总裁担任首席科学家,我实验室秦兵教授牵头其中的语文卷答题系统,语文是最难的,阅读理解、作文等需要推理、创意等方面的能力。

【刘 挺】为什么要启动沃森、高考机器人这类的项目呢?要从搜索引擎的不足说起。海量数据搜索引擎的成功掩盖了语义方面的问题,在海量的信息检索中,有时候,数 据量的增加自然导致准确率的上升,比如问“《飘》的作者是谁”,如果被检索的文本中说“米切尔写了《飘》”,则用关键词匹配的方法是很难给出答案的,但由 于Web的数据是海量的,是冗余的,我们不断地追加文本,就可能在某个文本中找到“《飘》的作者是美国作家米切尔”这样的话,于是利用简单地字面匹配就可以找出问题和答案的关联,从而解决问题。因此,是海量的信息暂时掩盖了以往我们没有解决的一些深层问题,比如语义问题。

【白硕】飘的作者生于哪一年,也是一样,掩盖了推理和上下文连接的问题。

【杨静lillian】有没有可能,只要有足够海量的数据,那么从中总会找到想要的答案。

【白硕】不会的。

【刘挺】在搜索引擎中,海量的数据掩盖了智能推理能力的不足,但是在类似高考这样的需要细粒度的知识问答的场景里面仅靠海量数据是远远不够的,因而将把更深层次的语言理解与推理的困难暴露在研究者面前,推动技术向更深层发展。

举例而言,有用户问:“肯尼迪当总统时,英国首相是谁?”,这个问题很有可能在整个互联网上均没有答案,必须通过推理得到,而人类其实常常想问更为复杂的问题,只是受到搜索引擎只能理解关键词的限制,使自由提问回退为关键词搜索。

 

【胡颖之】那么微软小冰这一类的问答机器人,是属于相当初级的形态么?

【刘 挺】问答系统有两大类:一类是以知识获取或事务处理为目的的,尽快完成任务结束问答过程是系统成功的标志;另一类是以聊天及情感沟通为目的的,让对话能够 持续进行下去,让用户感到他对面的机器具有人的常识与情感,给人以情感慰藉。我们认为微软“小娜”属于前者,“小冰”属于后者。

【胡本立】词汇,语言只是脑中概念的部分表达。

【杨静lillian】提供一份背景资料。

据日本朝日新闻网报道,以在2021年前通过东京大学入学考试为目标的机器人“东Robo君”,在今年秋天参加了日本全国大学入学考试,尽管其成绩离东京大学合格的标准还相差很远,但较去年有所进步。

“东Robo君”是日本国立信息学研究所等机构于2011年开启的人工智能开发项目,目标是在2021年度之前“考取”东京大学。此次是继去年之后第2次参加模拟考试。

据主办模拟考试的机构“代代木Seminar”介绍,考试必考科目包括英语、日本语、数学、世界史、日本史、物理等7项科目,满分为900分(英语、国语满分200分,其他各科满分100分)。“东Robo君”此次获得了386分,偏差值(相对平均值的偏差数值,是日本对学生智能、学力的一项计算公式值)为47.3,超过了去年的45.1

据介绍,如果“东Robo君”以这次的成绩报考私立大学的话,在全国581所私立大学里的472大学中合格的可能性为80%以上。研究人员认为“东Robo君”的学力水平“应该已能比肩普通高三学生”。

据称,该机器人在英语和日本语方面成绩有所提高,看来是倾向文科。在英语科目上,日本电报电话公司(NTT)参与了开发。NTT不仅灵活地运用其收纳了1千亿个单词的数据库,还加入了NTT公司开发的智能手机对话应用软件等技术。例如,在考试中的对话类填空题中,“东Robo君”会根据会话的语气或对话方的感情来进行判定,这使其成绩有所提高。但“代代木Seminar”的负责人表示,“如果目标是东大的话必须拿到9成的分数。老实说,‘东Robo君’还需更努力才行”。

但是,“东Robo君”的理科明显较弱。在数学函数的问题上,“东Robo君”无法像人一样在图表中描画图形,因为它不能进行直观性的理解。有关物体的运动问题也是同样,假设忽视物体的大小,以及假设摩擦为零之类的思考方式“东Robo君”还做不到。据称,这是因为他认为此类假设在现实中完全不可能。

除了参加7项必考科目外,“东Robo君”还参加了政治、经济的考试,它不能理解譬如“民主主义”的意思。据称,是因为教科书中没有过多解释少数服从多数,以及过半表决规则等社会常识,因此“东Robo君”对此并不熟悉,并且它也因此无法理解社会公正的概念。

该机器人项目负责人、国立信息学研究所新井纪子教授表示:“探究人工智能的极限可以说是这个项目的目的。弄清人和机器如何才能协调相处的问题,是日本经济发展的一把钥匙。”

 

【刘挺】杨静群主介绍的这篇新闻,我们也注意到了。日本第五代机的研制虽然失败了,但日本人仍然对机器人和人工智能充满热情,2021年让机器人考入东京大学是一个令人兴奋的目标。

【白硕】应该反过来思考,五代机的失败对今天的人工智能热有什么启示?

【刘挺】人们对人工智能的关注波浪式前进,本人认为当前对人工智能的期待偏高,本轮高潮过后将引起学者们的冷静思考。

 

【杨静lillian】按理说,届时我们的机器人就应该可以考入北大、清华了?

【刘挺】考入北大、清华是非常高的智能的体现,难度极大,这样的愿景能够变为现实,需要业内学者和企业界研发人员的通力合作,也有赖于未来若干年中计算环境的进一步提升。

【杨静lillian】讯飞的高考机器人是文科生,不考理科?这么说自然语言处理,反而是机器最能接近人类智能的一步?

【刘挺】文科生

【白硕】考理科想都不要想。小学的应用题要能做对已经很不容易了。

【杨静lillian】很奇怪的悖论,算力如此强大的计算机,连应用题都不能做。。。

【刘挺】我接触的一些数学家认为:只要能把应用题准确地转换为数学公式,他们就有各种办法让机器自动解题,因而即便对数学这样的理科科目而言,语言的理解仍然是关键的障碍。

【杨静lillian】看来高考机器人20年内都只能是文科生?但日本为什么2021年能让机器人上东大,也是文科?

【刘挺】日本2021年的目标也是考文科,跟中国的目标一致。

【杨静lillian】这充分说明了,为什么机器最先替代的是记者等文科生。。。

 

机器人为什么不能学习常识?

 

【胡本立】还有自然语言是不精确的,要只会精确计算的机器来不精确地表达比倒过来更难。

【白硕】应用题背后有大量的潜在常识性假设,对于人,不说也知道,对于机器,不说就不知道。

【杨静lillian】常识难道不能学习么?

【周志华】常识问题,图灵奖得主John MaCarthy后半辈子都在研究这个问题。悲观点说,在我退休以前看不到有希望。路过看到谈常识,随口说一句。

【杨静lillian】@周志华您是说20年内让机器学习常识没有希望?

【周志华】甚至是没看到能够让人感觉有希望的途径。当然,不排除有超凡入圣的人突然降生,拨云见日。

【白硕】常识获取比常识推理更难。

【刘挺】关于常识,谈谈我的观点:理论上的常识和工程实践中的知识获取或许有较大的区别。作为应用技术的研究者,我们对常识知识获取持相对乐观的态度。

群体智慧在不断地贡献大量的知识,比如维基百科、百度知道等,谷歌的知识图谱就是从这些体现群体智慧的自然语言知识描述中自动提炼知识,取得了令人瞩目的进展。

【白硕】我误导了。显性常识只需要告诉机器就行了,隐性常识往往是我们碰到了问题才知道原来这个都没告诉机器。所以,显性常识获取并不挑战智力而只挑战体力,但是隐性常识获取至今还在挑战智力。

 

 

【杨静lillian】既然机器学不会常识,为什么能给病人进行诊断呢?语言理解虽然难,但看起来依据常识进行推理就更难,几乎被认为没有可能性。

【杨静lillian】所以霍金和特斯拉CEO马斯克为什么还要“杞人忧天”呢?连常识都不可能具备的“人工智能”,到底有什么可怕的?

【刘挺】2014年6月8日,首次有电脑通过图灵测试,机器人“尤金·古斯特曼”扮演一位乌克兰13岁男孩,成功地在国际图灵测试比赛中被33%的评委判定为人类。

【刘挺】现在有学者质疑在图灵测试中,机器人总是在刻意模仿人的行为,包括心算慢,口误等,模仿乌克兰少年也是借非母语掩盖语言的不流畅,借年纪小掩盖知识的不足。

【王涛-爱奇艺】星际穿越里的方块机器人对话很有智慧和幽默。要达到这个智力水平,还需要解决哪些关键问题?语言理解,对话幽默的能力。。。

【刘挺】智能问答系统的核心问题之一是自然语言的语义分析问题。

【白硕】我曾经提出过一个明确的问题,要孙茂松教授转达给深度学习的大拿,也不知道人家怎么应的。问题如下:输入一些回文串作为正例,非回文串作为反例,用深度学习学出一个区分回文串的分类器。

 

情感计算与电影票房预测

 

【王涛-爱奇艺】语义分析这个问题深度学习是否有效?或者要依靠知识库,推理的传统技术呢?

【刘挺】深度学习近年来成为语音、图像以及自然语言处理领域的一个研究热潮,受到学术界和工业界的广泛关注。相比于深度学习在语音、图像领域上所取得的成功,其在自然语言处理领域的应用还只是初步取得成效。

作为智能问答基础的自然语言处理技术,当前的热点包括:语义分析、情感计算、文本蕴含等,其他诸如反语、隐喻、幽默、水帖识别等技术均吸引了越来越多学者的关注。

自然语言处理领域的重要国际会议EMNLP,今年被戏称为EmbeddingNLP。(注:Embedding技术是深度学习在NLP中的重要体现)

自然语言本身就是人类认知的抽象表示,和语音、图像这类底层的输入信号相比,自然语言已经具有较强的表示能力,因此目前深度学习对自然语言处理的帮助不如对语音、图像的帮助那么立竿见影,也是可以理解的。

我实验室研制的语言处理平台(LTP)历经十余年的研发,目前已开源并对外提供云服务,称为语言云。感兴趣的群友可以在语言云的演示系统中测试目前自然语言处理的句法语义分析水平:http://www.ltp-cloud.com

 

【杨静lillian】情感计算,这个有趣。可以把我的微信好友按照情感量化,排个序么?

【刘挺】情感分析是当前自然语言处理领域的热点,在社会媒体兴起之前,语言处理集中于对客观事实文本,如新闻语料的处理,社会媒体兴起之后,广大网民在网上充分表达自己的情绪,诸如,对社会事件、产品质量等的褒贬评论,对热点话题的喜、怒、悲、恐、惊等情绪。

目前的情感分析技术可以计算你的粉丝对你的情感归属度,对你各方面观点的支持及反对的比例。我们实验室研制了微博情绪地图:http://qx.8wss.com/,根据对大量微博文本的实时分析,观测不同地域的网民对各类事件的情绪变化。

现在在微信上输入”生日快乐“,屏幕上会有生日蛋糕飘落。未来,只要你在微信聊天中的文字带有情绪,就能够被机器识别并配动画配音乐。

机器能够理解甚至模拟人的情感,是机器向类人系统迈进的一个重要方向。

 

【胡本立】深刻理解自然语言的产生和理解还得等对脑科学包括脑认知过程和机制的理解,通个模拟来发现和理解难会有突破性进展。

 

【杨静lillian】情感归属度这个比较有趣。我认为可以对微信群做个智能筛选。保留归属度高的,删除归属度低的。公众号也是同理。刘老师,那么您认为情感计算是未来认知计算的突破方向之一?

【朱进】@杨静lillian 恕我直言,机器的智能筛选免不了是弱智的决定。只要编程这种形式存在,真正意义上的创造就很难想象。

【白硕】情感归属度,先要解决特定的情感倾向是针对谁、针对什么事儿的。反贪官不一定反皇帝,反害群之马不一定反群主。

【刘挺】呵呵,白老师说的是评价对象(比如“汽车”)识别问题,评价对象还有多个侧面(比如“汽车的外观、动力、油耗等”)。

【刘挺】刚才杨静群主提到认知计算,我们认为计算有四个高级阶段:感知计算、认知计算、决策计算和创造计算。

语 音识别、图像识别属于感知层面,语言理解、图像视频的理解、知识推理与数据挖掘属于认知计算,在人类认知世界并认清规律的基础上,需要对社会发展的未来进 行预测并辅助决策,更高的计算则是创造计算,比如我们正在研制的机器自动作文属于创造计算。情感与认知密切相关,应该属于认知计算层面。

我们开展了两年多的中国电影票房预测研究,最近百度也开展了电影票房的预测,这项研究属于决策计算范畴。

【杨静lillian】百度对《黄金时代》的预测据说遭遇了滑铁卢。《黄金时代》这个片子,最主要的原因还是文艺片当大众片推了,高估了市场的接受度。

【刘挺】对于《黄金时代》的票房,百度预测是2.3亿,我实验室“八维社会时空”(http://yc.8wss.com)的预测是8000万,实际票房是5200万而。我们正在开展股票预测研究,社会媒体上反映出的股民情绪为股票预测提供了新的数据支持。重大突发事件与股票涨跌的关联亦是股票预测的重要手段。

白老师是上海证券交易所的总工,又是计算机领域的顶级专家,对证券市场中的计算技术最有发言权,以后我们这方面的研究需要向白老师学习

【杨静lillian】照白老师的想法,量化交易应该逐渐取代散户操作,那么情绪的影响应该是越来越小了。至少权重不会像此前那么高。

【白硕】应该说是情绪都暴露在量化武器的射程之内。

 

【刘挺】关于票房预测,我们采用了基于自然语言语义分析的用户消费意图识别技术,在电影上映前较为准确地计算在微博上表达观影意图的人群数量,这是我实验室票房预测的一块基石。

【朱 进】假如是个制作质量极差的电影,但是谁都没看过,制作方按常规方式宣传,机器能预测出来票房会极差吗?最简单的道理,完全同样的内容,换个相近的名字作 为新电影再放,机器会对票房给出跟第一次结果一样的预测吗?如果第三次换个名字再放哪?题目很牛,所有的宣传都很牛。问题是,预测的机器难道不需要先看一 遍电影再猜吗?另外,这机器真的能看懂电影吗?

【白硕】朱老师,买票的人基本都是没看过的人。做决策,从分析没看过的人的行为入手倒是可以理解的。

 

【刘挺】票房预测有时会失准,主要原因包括:电影制作方的强力微博营销行为、竞争影片的冲击、主创人员不合时宜的公关表态等等。

我实验室还在开展因果分析的研究,在《大数据时代》一书中,作者舍恩伯格认为相关性非常重要,因果关系可以忽略,我们认为因果关系的挖掘将对人类的决策起到关键作用,值得深入研究。

比如,如果《黄金时代》市场不理想的原因是如杨静所言“文艺片当大众片推了”,那么如何用大数据验证该原因是真正的主要原因,以及是否还有其他隐蔽的重要原因未被发现,这将对未来电影营销提供重要的决策支持。

 

【杨静lillian】市场有时非理性。看看《泰囧》,还有《小时代》这类片子就知道了。不知为何,国产片总是低智商更符合大众口味,但美国大片,就《星际穿越》也可以横扫中国。口碑的分析恐怕也很重要。不仅是宣传。朋友的评价这些都影响观影决策。还有时光网与豆瓣的评分。

【王涛-爱奇艺】静主说的这个,和爱奇艺同事聊也是有这个规律。我们今年买了变4,收视一般。那个便宜的泰囧,大众很喜闻乐见。小时代是为90后设计的。致青春为80后设计的。这是他们票房火的原因。

【杨静lillian】可能是两个受众市场。需要做个交叉分析。

【白硕】火的都有共同点,但共同点和智商无关。大众不是傻子但也不都是高大上。从高大上角度看低质量的影片也不乏受大众追捧的理由。这又相对论了。

 

 

【白硕】我关心的问题是,整个预测领域都有个案定终身的趋势,什么准确率召回率一类测度都不见了,这是非常危险的苗头。

【朱进】@白硕 按 我的理解,所谓的预测是在首映之前就做出来的。第一天的票房可以跟机器的预测一致。不过看电影的人又不是傻子,第一场一过,马上电影很臭不值得看的舆论就 传播出去了。后面的人还会按照之前的预测那样挤到电影院里吗?按我的理解,票房的关键还是片子的质量。可是片子的质量再没看到之前其实是不知道的。

【刘挺】@朱进 ,短期预测易,长期预测难,因为在事件演进过程中会有多种因素干扰。预测有两种,一种是事前预测,一种是在事件推进中根据已经获悉的事态对下一步事态进行预测。

【朱进】@刘挺 我咋觉得长期更容易猜准啊,因为时间对于涨落是有平滑的。

 

 

【杨静lillian】刘教授可总结一下,认知计算未来您最看好的技术突破么?需要从您的角度给出趋势判断。

 

【刘挺】我是自然语言处理、社会媒体处理方面的研究者,视野有限。

自然语言处理技术趋势:1. 从句法分析向深度语义分析发展;2. 从单句分析向篇章(更大范围语境)发展;3. 引入人的因素,包括众包等手段对知识进行获取;4. 从客观事实分析到主观情感计算;5. 以深度学习为代表的机器学习技术在NLP中的应用

高考文科机器人只是一种测试智能水平推动学术发展的手段,高考机器人技术一旦突破,将像沃森一样甚至比沃森更好的在教育、医疗等各个领域推动一系列重大应用。

我的观点不仅代表我个人,也代表我实验室多位老师,包括文本挖掘与情感分析技术方面的秦兵教授、赵妍妍博士,自然语言处理方面的车万翔副教授,问答领域的张宇教授、张伟男博士,社会媒体处理领域博士生丁效、景东讲师。也期望将来各位专家对我的同事们给予指点。

 

(没有打分)

雁过留声

“【刘挺】自然语言处理与智能问答系统”有1个回复

  1. 新手2 于 2015-03-09 7:36 下午

    呵呵,白老师还是一如既往的冷静。