GFT你这么diao,你的伪粉丝们造吗(2)
作者 彩筆 | 2014-05-10 08:55 | 类型 大数据, 行业动感 | Comments Off
GFT 2.0: updated (2009) Add unseasonal influenza to seasonal influenza
前一篇文章完整地记录了GFT诞生的全过程。
GFT 1.0发布于2008年11月,建模参考的CDC数据为2003-2008年3月(全部为季节性流感的统计数据),预测2008-2009年的疫情。GFT 1.0在线期间,有评论表示担心,GFT 1.0之所以能够准确的预测流感疫情(以CDC发布的ILI统计数据为准),很可能是由于用户在网上检索医疗信息的“群体行为”在时间上的一致(may be limited by the consistency of inline health-seeking behavior)。如果是这样,那么,在季节性流感和非季节性流感爆发期间的不同情境下,用户的检索行为是否仍能保持一致?是否会有不同的terminology规律?等。 Thus, an open question was whether GFT could provide accurate estimates of NON-SEASONAL FLU.
2009年爆发的H1N1为GFT提供了预测非季节性流感疫情的训练数据(The 2009 influenza virus A (H1N1) pandemic [pH1N1] provided the first opportunity to evaluate GFT during a non-seasonal influenza outbreak.)。 GFT 2.0发布于2009年9月24日,预测了2009年9月-12月的疫情。
2.0与1.0的methodology是相同的。本文依据参考文献[1],从模型所包含检索词的数量(number)和体量(volume)、模型对历史数据的拟合效果两个方面对比1.0与2.0两个版本的GFT。检视GFT 2.0的准确率,并从检索词的数量和体量(volume)变化窥探用户检索行为和terminology的变化。
一、构成两个模型的检索词的特点 (1)采纳的检索词数量和体量 l GFT 2.0包括160个与流感活动有关的检索词,而1.0的版本中只有40个。 l 尽管2.0的版本使用的检索词数量将近是1.0版本的4倍,但是,GFT 2.0的检索词体量只有GFT 1.0的1/4。因为GFT 2.0使用了更多不常见的检索词(due to the inclusion of less common queries than in the original model)。 l 两个模型有11个重合的检索词,占GFT 2.0体量的50%,却只有GFT 1.0的11%。 (2)内容 l GFT 2.0包含的检索词直接与influenza有关,而非是与流感有关的病症(比如:influenza infection, such as “pnumonia”,拼写错误是故意为之,保持与检索词的原始形态一致): a) (流感引发的疾病)主题是influenza complication和symptoms of an influenza complication的检索词占GFT 1.0体量的48%,但是在GFT 1.0中只有17%; b) 主题是general influenza symptoms和specific influenza symptoms(即与流感直接相关)在GFT 2.0中占69%,但在GFT 1.0中只有8%; c) 在GFT 2.0中,包含flu的检索词有72%(个数38%),在GFT 1.0中只有14%(个数2%)。
将检索词按照主题汇总,比较每个主题的大小如截图Table 1。 文献来源:参考文献[1]
二、两个模型的预测效果对比 首先,将整个研究区间划分为4个时间段: (1)阶段1:pre-H1N1 (2003年9月-2009年3月) (2)阶段2:H1N1 overall (2009年3月-2009年12月) (3)阶段3:Summer H1N1 (2009年3月-2009年8月) (4)阶段4:and Winter H1N1 (2009年8月-2009年12月)
接着,对比两个模型的预测效果的参考指标,结果如截图Table 2: (1)相关性 Pearson Correlation (2)误差 RMSE
结论: 1. 在4个阶段中,模型的估计值与ILI数据的相关性 在阶段1和阶段2,两个模型都与ILI数据高度相关; 在阶段3(H1N1流行期间前半段),GFT 1.0与ILI数据无关(0.290),而GFT 2.0与之非常相关(r = 0.945); 在阶段4(H1N1流行期间后半段),两个模型均与ILI数据高度相关,相关系数分别为(r = 0.916 and r = 0.985)。
2. 两个模型对ILI数据的描述程度 粗略地讲,在统计学中,用R2表示所建立模型对变量之间关系的描述了多少,取值在0-1之间,RMSE = 1- R2。 所以,根据Table 2中的数据可知,GFT 1.0对ILI数据的描述能力比GFT 2.0差,在阶段2最差(GFT 2.0的RMSE是GFT 1.0的3倍多)。
3. 总体趋势 虽然,两个模型的估计值与ILI的数据均强相关,从Figure 1的2个图(尤其是A图)中还是可以明显看出拟合效果的差异。 两个模型都能够对2009年早期季节性流感期间的疫情做出准确的估计。在整个pre-pH1N1期间,2.0与ILI数据的相关性比1.0稍好(1.0: r = 0.906, RMSE = 0.006; 2.0: r = 0.942, RMSE = 0.005)。并且,2.0的预测值与4个ILI峰值一致(共出现6个峰值);而1.0只与3个峰值一致。 文献来源:参考文献[1]
三、H1N1期间的检索行为 通过前文的对比,可以得出,在整个时间段,两个模型的估计值与ILI数据均强相关,但GFT 2.0的效果略好于GFT 1.0。然而,在阶段3,也就是H1N1爆发期间的前半段,GFT 1.0的估计值与ILI数据不相关,而GFT 2.0强相关。也就是说,改进后的模型不仅能够拟合原有的ILI数据(季节性流感爆发的数据),也能够拟合新产生的数据(非季节性流感爆发期间的数据)。 同时,旧模型完全不能够拟合新产生的非季节性流感的数据,也说明,在季节性流感和非季节性流感两个阶段,数据中确实发生了变化。
如本文开头提到,主流的观点是认为是用户的信息检索行为发生了变化。 参考文献[1]对用户行为的探索是通过对构成模型的检索词的数量前后变化的比较进行的。 作者们观察到,在整个H1N1期间,GFT 1.0中检索词的数量比期望的要低(考虑之前得到的检索词数量与ILI数据之间的数量关系),导致其对ILI数据预测值偏低。为了检测这种变化对模型的影响,用每个主题的检索词数量和ILI数据建立模型。结果,这些模型几乎都低估了在H1N1期间的ILI数据。原文给出了2个例子,如Figure 2。 同样,在用地区数据进行的类似分析中,也表现出,GFT 1.0对实际值的预测偏低(与使用全国范围的数据得到的结果一致)。
Figure 3展示的是ILI数据和单个检索词构建的模型预测值,“symptoms of flu”, “symptoms of bronchitis”, and “symptoms of pneumonia”。在H1N1之前,这三个检索词能够很好的拟合ILI数据。在H1N1期间,“symptoms of flu”仍能很接近的拟合ILI数据,但是“symptoms of bronchitis”和“symptoms of pneumonia做出的估计已经明显的低于实际值,尤其是在H1N1爆发期间的后期。 文献来源:参考文献[1]
讨论: 从上面的过程中,我们可以得出,在季节性流感和非季节性流感爆发季节,用户检索医疗卫生信息所使用的检索词确实发生了变化(用户行为变化)。 然而,要准确地指出导致这种行为变化的原因是很困难的。作者列出了几个可能原因,解释GFT 1.0低估H1N1活跃度的原因。 1. 用户减少了使用与influenza complications such as bronchitis and pneumonia有关的检索词。这个主题的检索词在GFT 1.0中占据很大比例。 2. H1N1病毒出现于春夏的月份,与秋冬月份(季节性流感高发时期)不同。人们极有可能在冬天和夏天使用不同的检索词。 3. GFT建模使用的ILI数据,来自各地各类医疗卫生机构向CDC的报告,因此,CDC统计的数据可能跟ILI的真实情况有差。另外,ILI的数据估计的是因流感而到访门诊的病人在总人口中的比例,这个数据既有赖于实际的流感发病情况,也依赖患病者中实际去门诊的比例。后者的变化能显著影响ILI的数据以及GFT模型的估计值。(三个数据的转化关系见下图) CDC实际统计到的ILI数据为:(上报的)门诊到访流感病人/总人口数,然而,它将“上报的门诊到访流感病例数”作为对“门诊到访流感病人数”估计。而GFT的社会使命是估计流感患病人数/总人口数。由此也可以看出,模型“与生俱来”的假设才是导致“预测不准”的根源。只是这种根源,有点宿命的不可改变的韵味。(即便GFT能够“准确”地预测出CDC统计的ILI数据,ILI数据又代表了什么?)
写在最后: 请牢记,除了每年更新一次GFT建模数据之外,GFT的Methodology到目前为止只更新过2次。本文记录了第一次,接下来会有一篇文章介绍第二次更新。 作为第一次更新,GFT补充了在非季节性流感爆发时的数据。从GFT 2.0与ILI数据的相关系数和RMSE来看,模型2.0对现实数据的拟合情况是很好的。So,until now,GFT已经prepared for everything。能想到GFT第二次更新了什么吗?敬请期待。
参考文献: 1. Cook S, Conrad C, Fowlkes A L, et al. Assessing Google flu trends performance in the United States during the 2009 influenza virus A (H1N1) pandemic[J]. PloS one, 2011, 6(8): e23610.
小吐槽:这篇文章在内容上的组织结构并不好(就更别说“巧妙”了),不知道是不是因为不是正式出版物所以标准降低。 | |