Google Flu Trends: Big Data Hubris

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




本系列内容源自3月14日Science上刊登的Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.一文。本节主题为(原作者认为的)导致GFT预测失误的原因之一:大数据傲慢。

 

大数据傲慢(Big Data Hubris,采纳自果壳网直译)是指默认大数据是传统数据收集和分析的“终结者”,而非该领域的参与者之一。(原文:Big data are a substitute for, rather than a supplement to, traditional data collection and analysis.)

从作者给出的解释可以知道,大数据傲慢不是大数据本身摆出的高高在上、难以一亲芳泽的姿态。而是追随它的人忘了自己从哪里来(假设是传统的数据收集和分析),却一心想要随“她”而去(并且看不上原来的“姑娘”了呗[捂嘴笑])。

 

“异域风情”有强大的吸引力,趋之若鹜的心情须予以理解。何况,确实是好“东西”[流口水](原文:There are enormous scientific possibilities in big data.)

关于大数据应用,除了原文作者着重针对的GFT,还有利用检索词条或社交网络内容作预测(research on whether search or social media can predict x)等等,都展示出“大数据”的价值(show the value of these data)。以流感病例监控为例,传统的监控系统,比如美国疾病控制中心(US Centers for Disease Control and Prevention, CDC)每周发布一次全国及地区的监控报告。这样的报告数据来自各地医师上报的临床ILI案例等,因此CDC的报道会有1-2个礼拜的时滞。

Seasonal influenza epidemics are a major public health concern, causing tens of millions of respiratory illnesses and 250,000 to 500,000 deaths worldwide each year. 每年,季节性流感在全世界范围造成几千万的呼吸系统疾病(痛苦)和25万-50死亡

In addition to seasonal influenza, a new strain of influenza virus against which no previous immunity exists and hgh legal substitute that demonstrates human-to-human transmission could results in a pandemic with millions of fatalities. 能够在人群中传播、并且没有抗体的突发性流感(病毒)可能导致百万级人数的死亡

Early detection of disease activity, when followed by a rapid response, can reduce the impact of both seasonal and pandemic influenza.

提早发现和迅速反应能够降低伤害。

这是Google在Nature上将GFT昭示天下时说的前三句话,每次读都是要“泪沾襟”的节奏。(笔者是个矫情的“理想主义者”)所以,我愿意相信,如果“大数据”是个姑娘,“她”一定貌美如花,充满无限“可能”[流口水]。

 

然而,这个姑娘“来路不正”(原文:However, quantity of data does not mean that one can ignore foundational issues of measurement and construct validity and reliability and dependencies among data.)“长得好看怎么了,长得再好看也得生孩子(我就随便举个例子)”(假设这是一个旧时代的、迂腐的、中国男人的价值观)。

原文作者指出,炙手可热的大数据不是来自专门设计的工具——能够输出有效、合理的用于科学研究的数据。(原文:The core challenge is that most big data that have received popular attention are not the output of instruments designed to produce valid and reliable data amenable for scientific analysis.)

看到这些字眼,笔者觉得很熟悉:valid(validity), reliable(reliability), scientific。夸大一点说,它们是对所有科学研究所使用数据(以及过程)的要求;就现在正在讨论的领域,它们是传统数据分析过程的(基本)标准。以前老人家常说:心气再儿高的闺女也得嫁人,不想生孩子(我真就随便举个例子[汗])哪儿行。虽然,其实真的可以。

就笔者所知,数据分析的对象有2类。一类是实验数据,即通过设计试验得到,试验过程比如控制变量等;另一类是观测数据,也就是在数据获取过程中没有办法做到控制变量,最常见的是经济数据。观测数据就是没有能够produce valid and reliable data途径的情况。请众看官自行YY(只科普一次:“意淫”)计量经济领域的源远流长的发展历程和枝繁叶茂的分支方法,在合理(但并非不变)“假设”的基础上,可以做很多事。

 

小结

“大数据傲慢”其实翻译的不好(更好的翻译就有赖于民间深藏功与名的各位高手了)。下面提供一个例句,以辅助读者从语言上理解“** hubris”。

There is no safety in unlimited technological hubris. ——McGeorge Bundy(肯尼迪总统的国家安全顾问)

翻译:在技术方面自以为是是很危险的。

如果把technological换成big data,“Big Data Hubris”对应的中文义应是“在大数据方面自以为是”。(郑重道歉,笔者之前未经慎重调查,人云亦云地翻译为“傲娇的大数据”,实在是有哗众取宠、混淆视听之嫌。)

笔者怯生生地总结一个对big data hubris的描述作为结尾:对大数据寄予盲目的(全部的)期望,有欠妥的数据处理过程。另:对于作者认为的欠妥处理,原文中有事实论证。然而笔者在落实全部细节之后未能得到与原作者相同的结论,即作者提到的事实都能落实,但是无法构造出事实与作者论点之间的逻辑连系。正在尝试与原作者沟通,无论是否能收到回复,都会在后续单独一篇文章中整理出来。

(没有打分)

雁过留声

“Google Flu Trends: Big Data Hubris”有1个回复

  1. Conan3sisters 于 2014-03-31 11:34 上午

    之前有前辈创造了一个中文词,不仅和“Big Data Hubris”完美对应,而且更加传神有力,叫“大数据婊”。