Google Flu Trends: Algorithm Dynamics

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




正文中的指代:

文章A:Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.

文章B:Butler D. When Google got flu wrong[J]. Nature, 2013, 494(7436): 155.

文章C:Copeland P, et al. Google Disease Trends: an Update. International Society for Neglected Tropical Diseases. 2013. available at: http://patrickcopeland.org/papers/isntd.pdf

 

本文继续讨论文章A作者认为导致GFT出错的因素(two issues that contributed to GFT’s mistakes)之二:Algorithm Dynamics。

在系列(一)中简单提过,作者(在所有可能产生混淆的情况下,下文出现的“作者”均指文章A的作者,没有例外)所说的Algorithm Dynamics包括2个意思:1. Google的工程师为改善服务对算法做出改动;2. 用户使用行为的改变。作者认为,这两个因素致使GFT对流感趋势的反映不稳定。(At a minimum, it is quite likely that GFT was unstable reflection of the prevalence of the flu because of algorithm.)

 

在文章A发表之前,对GFT预测有偏最常见的解释是:在(前一个)流感期间,媒体的宣传报道引起更多本身没有生病的人进行与流感有关的检索,(The most common explanation for GFT’s error is a media-stoked panic last flu season.)导致对今年流感样病例的较高估计。

比如,在2013年初,GFT的预测值是实际值的2倍,文章B中写过,一些专家认为the problems may be due to widespread media coverage of this year’s severe US flu season, including the declaration of a public-health emergency by New York state last month. The press reports may have triggered many flu-related searches by people who were not ill.

文章C(第一作者Patrick Copeland,目前职位:Senior Engineering Director – Google)记录了针对GFT(以及Google Dengue Trends)在2012年表现出来的overestimating influenza-like illness (ILI)所做的改进。其作者在文章中提到:We have concluded that our algorithm for Flu and Dengue were susceptible to heightened media coverage.

 

然而文章A的作者认为:媒体报道导致用户群体行为模式的改变是可能的影响因素,却无法解释为什么GFT曾经在连续108个星期中有100个星期的预测值偏高。(Although this may have been a factor, it cannot explain why GFT has been missing high by wide margins for more than 2 years.)(GFT has missed high for 100 out of 108 weeks starting with August 2011.)如下图,参考线右侧为包括100个overestimate数据点的108个星期的数据。

他们认为可能性更大的原因是Google搜索算法的变动。(A more likely culprit is changes made by Google’s search algorithm itself.)并用blue team和red team来比喻来自两个方面的作用力。

注:”blue team”和”red team”在英语中义项较多,在此不做过多解释。

文献来源:文章A

 

1. “blue team” dynamics

– where the algorithm producing the data (and thus user utilization) has been modified by the service provider in accordance with their business model

也就是前面提到的Google主动修改算法。在文章A随附的supplementary materials中,从第10页开始图文并茂的展示了多个作者认为会导致GFT结果不准的Google对算法的改动。这里拣选作者在正文提及的供大家管窥。

案例1

2011年6月,也就在GFT开始持续高估ILI的前几个星期,Google新增了相关检索这一功能。比如,检索“flu”会返回流感诊断和治疗的推荐。作者认为,这导致了流感诊断和治疗检索次数的虚高,并进一步使得GFT的预测不准。(是的,没有提供“事实”,只有“推测”。案例2也是这样。)

案例2

2012年2月,Google推出Health Search Box服务:当用户检索某种症状时,会返回症状可能的诊断。作者尝试检索“runny nose and fever”,返回的结果中“flu”和“common cold”分别排在第一、二位(见下图)。作者由此推断,Health Search Box可能导致了2012-2013年间流感高发季节,GFT统计的 “cold vs flu”和“cold or flu”的搜索数量激增。(As the reader can see, the top two results are for the flu and the common cold. This seems a likely reason why searches like “cold vs flu” and “cold or flu” seem to spike up in the 2012-2013 flu season.)

文献来源:文章A的supplementary materials

或许作者也意识到,单纯罗列假设很难make a case,于是在另外的切入点提供了一个用户行为确实被改变的事实论据。

案例3

Google发布Health Search Box时,提供了一个演示案例,如下图。作者认为,这种情况相对罕见。

注:“这种情况”是指用户一次性输入检索词“abdominal pain on my right side” exactly。因为Google在为GFT建模时,统计的是一次完整的用户输入为基本单位,不对其做其内容任何处理。

文献来源:Improving health searches, because your health matters, Google; http://insidesearch.blogspot.com/2012/02/improving-health-searches-because-your.html,转引自文章A supplementary materials

而实际上,在Google发布公告前后,“abdominal pain on my right side”的检索次数(模式)真的有明显不同,见下图。

文献来源:Google Trends, www.google.com/trends/,转引自文献A supplementary materials,downloaded data available in replication materials.

 

结合三个案例来看,作者说的不无道理。(作者意欲证明,Google对检索服务的改进会影响用户检索模式,并进一步导致GFT模型失效。)但也未到言之凿凿的程度。

写过GRE Analytical Writing的同学应该很容易在上述推理中找到不止一个unstated assumptions,笔者出于写作方便随机总结若干如下:

1. 在案例3中确实能够看到“用户群体行为”的“突发性”变化,但并不意味着这种突发性也存在于案例1和案例2的过程中(待证明);

2. 在案例3中肉眼可见的“突发情况”的极端情况,无非是对“abdominal pain on my right side”的检索由0次增加至约100次。这种变动幅度,在以“某检索词被检索次数占同时期所有检索次数比例”为建模依据的GFT中,对最终结果会产生影响吗(同样待证明);

 

此外,Blue team issues并非Google独有。类似Twitter和Facebook都会频繁被重新设计。作者十分担忧blue team issues对科学实验的可重复性的影响(虽然他们这样担忧的依据也并不充分)。

 

2. “red team” dynamics

– occur when research subjects (in this case Web searchers) attempt to manipulate the data-generating process to meet their own goals, such as economic or political gain

也就是用户利用系统逻辑来达成自己的目的(在过程中可能会扭曲系统逻辑本来的目的)。作者认为这GFT暂时不存在这类问题,但需引起科研人员的注意。

 

小结:

原文:Search patterns are the result of thousands of decisions made by the company’s programmers in various subunits and by millions of consumers worldwide.这一点无需否认。但笔者始终认为,作者将search patterns的变化与GFT预测结果联系起来的推理证据不足。

 

反思:

写到这里,文章A的主体内容介绍完了。围绕文章A展开讨论GFT的系列文章亦到此为止,特此告知。

笔者很消沉。原来,把“一本书”读厚再读薄之后,并没有满溢的成就感,反而是铺天盖地的空虚。

GFT的模型是不完美的,然而这个世界上存在“完美”吗?(据说在英语文化中,perfect一词连比较级的派生含义都没有。)出于对大数据应用的热爱,对GFT自然是爱屋及乌。最初看到这样一篇发表在Science上,为GFT提供改善建议的文章,笔者兴奋坏了。果壳网的简单报道(http://www.guokr.com/article/438117/)对(不读论文原文的)中文读者远远不够,Time.com(http://time.com/23782/google-flu-trends-big-data-problems/)上的内容太通俗,只简单改写了论文内容,以便于更一般的读者接受。然而笔者这一个系列的文章写下来,像是激情过后(It doesn’t have to be sexual.-_-|||。如果是sex过程,涉及到的激素就远不止肾上腺素啦:P),肾上腺素恢复正常水平,空落落——连被子都抱不紧。作者的points都是老生常谈(大言不惭地说,所有的统计分析都需要纠结这些问题)。退一步讲,即便是旧瓶装新酒,作者也没有给出solid evidence,证明GFT存在这些常见统计分析问题,并且,就是这些统计分析过程降低了GFT预测的准确程度。

 

另外,文章A的supplementary materials还给出了一些实证研究的结果,证明结合使用“大数据”与“小数据”,对ILI的预测准确程度高于仅使用单一类型数据所做的预测结果。对此,笔者的看法是这样的。

笔者(还是那个“大数据婊”)在系列(二)中提到过,GFT的伟大之处在于“即时”,甚至“超前”。GFT比CDC提前发布预测结果的2个星期时间,人类有机会去挽救,死亡或痛苦。笔者认为,在“实时”甚至“超前”面前,准确率必须退居次要位置。更何况GFT到目前为止的预测结果在变化方向上无差错。作者纠结的只是数值大小。

正因大数据的这个特性是传统数据所不具备的,所以将两者综合使用会损失掉大数据的这一优势。也正因如此,笔者同意GFT需不断完善其算法,提高准确率,但“提前性”不容compromise。

“I’m in charge of flu surveillance in the United States and I look at Google Flu Trends and Flu Near You all the time, in addition to looking at US-supported surveillance systems,” says Finelli. “I want to see what’s happening and if there is something that we are missing, or whether there is a signal represented somewhat differently in one of these other systems that I could learn from.”(from文章2)

——笔者看来,对于非大数据应用研发人员,这种心态就很健康。

(没有打分)

雁过留声

Comments are closed.