跟风报道[1]trends.baidu.com

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




不管你信不信,反正我是不信

本想报道Carnegie Mellon University的Bin Zhao和Eric P. Xing的Online Video Highlighting, AKA Live Light。怎奈其他作者已经出了成文,暂未公开,在不清楚具体内容的前提下,彩笔决定暂时拖住。

上周末(7月5日和6日),百度预测(trends.baidu.com)上线了新的产品:疾病预测。据说[1],是利用用户的搜索数据,结合气温、环境指数、人口流动因素建立模型,实时提供几种大众关注的病种的发病指数。

吐槽时间到。

百度的“关于疾病预测”是这样写的(如下图[5])。“产品介绍”彩笔就不说什么了,对彩笔这种零生活经验的人来说,看上去不是天花乱坠,不知道“实用价值”究竟有多少。

彩笔有信心能看懂的部分理应是“预测原理”。Google在launch GFT时,至少还有一篇配套的学术论文,甚至后续还有一系列的不断的验证、讨论的文章出版。为了这种精简版的“预测原理”实在是不值得浪费时间去count the words,即便是为了讽刺这份愚弄大众的声明。

这里又不能单纯的说“百度,what are you hiding?”在天朝这种神圣的体制下,Baidu也只是个棋子吧。

 

 

 

 

 

 

 

 

高手在民间。

 

 

 

 

彩笔其实不善于吐槽,但是看了网友们的精彩评论,鲜红的吐槽血便沸腾了。就在此时此刻,彩笔打开了百度疾病预测的页面,默认的显示是流感:41,980。彩笔选了其他的疾病种类,“指数”数值如下[6]:

性病:69,668

肝炎:56,398

肺结核:13,744

默认的状况是中国全境,没错吧。彩笔真的不知道所谓“指数”代表什么,但是“流感”之所以叫“流感”,总不能还不及“性病”……流行吧。

彩笔承认,这毕竟是“间接”证据。所以,如果实在是没什么可遮掩的,百度,你就公开了嘛,哈哈。

 

据说[2],百度预测是百度在2014年4月4日低调上线的一款大数据产品。

第一个上线的产品是“景点舒适度预测”,后续逐步推出了城市旅游预测、疾病预测、高考预测、世界杯预测(此前为已发布的服务)、房地产预测、金融预测、票房预测和就业预测。

嗯,于是彩笔又找到了槽点:高考作文预测。

所谓首届大数据时代的高考。

语出自[4],让我们看看所谓命中率2/3[7]的百度高考作文预测,究竟是怎么算出2/3的先。直接引用原文中的例子了:

百度高考作文预测的6个方向以及相关关键词

No.1时间的馈赠。关键词:依旧&记忆

在百度高考作文预测里,“时间的馈赠”荣膺出题概率榜首。结果出题老师果然没让百度失望,这次江苏卷和广东卷的作文题目分别为“什么是不朽”、“胶片与数码时代”。

所谓不朽,就是那些时间磨灭不掉或者尚未磨灭掉的东西;而胶片和数码,都是关于记忆的封存。对于这类问题的辨思,其实归根到底都是对时间的辨思,即时间的馈赠——记忆或者依旧存在的事物。

……(更多内容可参考原文[7]

让彩笔总结一下:江苏卷和广东卷的“什么是不朽”甚至“胶片和数码时代”都可以算是主题“时间的馈赠”的范围内而命中?!

这让彩笔想到曾经听到这样的一个段子:一个伟大的精神病学家在一次学术交流会上,面对在座的这个行业的佼佼者,说道:“(经过他多年苦心经营,终于悟出)世界上的精神病其实只有两种,”他伸出2个手指,“一种是能治好的,一种是治不好的。”

这个故事告诉我们,“分类”要有意义的嘛。否则,白痴都能看出来,分和不分的差别:就是没差别咯。

预测也是一样,甚至难度还要高些。或者说,(广义的)分类是预测的第一步(或其中一个环节)。

按照上述示例的那种扯犊子的总结方式,彩笔很好奇,剩下的1/3究竟有多“离谱”才没有被算到“命中”的类别里面。

大家将自己放入高考作文备考的情境中YY一下便知,按照百度高考作文预测给出的6大主题,考生的准备工作是否能跟家有“针对性”(这里就不说减少工作量或准备工作的转化率了)。很明显,答案是完全没有。富有经验的高考名师是否能做到更好?彩笔不敢妄下断言。

 

最后:

彩笔以为,这一系列的conflicts以及无的放矢的间接攻击,百度至少可以通过公开算法等举措避免(至少一部分)。

彩笔短视,不知道百度(前面也说过,可能并非百度单方面的原因)有什么可藏着掖着的(坐等各路神仙爆料),拿出点武林高手的姿态来嘛,不服来战,独孤求败好么。

 

写在后面的话:

写这种跟风报道的文章真的很容易,容易成文,容易高产,但是首席说了,要deep reading,所以这种跟风报道的文章只是极其偶尔的出现。

 

相关链接:

[1] 36氪. 百度上线“疾病预测”,利用大数据预测流感、肝炎、肺结核和性病发病趋势. http://www.36kr.com/p/213481.html

[2] 百度百科. 百度预测. http://baike.baidu.com/view/12756462.htm?fr=aladdin

[4] 百度大脑神预测 大数据命中多省高考作文题. http://tech.sina.com.cn/i/2014-06-07/11249423171.shtml

[5] 百度预测. http://trends.baidu.com/

[6] 百度. 疾病预测. http://trends.baidu.com/disease/

[7] 大数据再显威力 百度准确预测12篇高考作文题. http://digi.163.com/14/0613/14/9UKJOOOG001618JV.html

(1个打分, 平均:5.00 / 5)

雁过留声

“跟风报道[1]trends.baidu.com”有1个回复

  1. AbelJiang 于 2014-07-15 9:17 上午

    记得有过用Google Trends预测股票走势的新闻,不妨对比,不过百度的余凯大神确实厉害