Richard W. Hamming . 《The Art of Doing Science and Engineering》

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

(没有打分)

VisualThreat发现新的FakeAV恶意应用变种“Se-Cure MobileAV”

谷歌商店月初爆出的”Virus Shield”(伪杀毒软件),说白了,就是不干杀毒的活,也不做病毒干的事情,就是骗用户付费下载。所以传统杀毒软件检测不到,谷歌应用商店得以审核通过。4月29号,又一个新的虚假杀毒软件“Se-Cure Mobile AV”被发现。Visualthreat安全实验室发现了基于安卓版本的“Se-Cure Mobile AV”恶意应用,距上次在Google Play上发现的FakeAV “Virus Shield” 仅有两周多时间。FakeAV不同于一般恶意应用,很难用传统的查毒方式检测。研究人员建立了正常杀毒引擎的行为机理,通过对比新出现的所谓的杀毒应用和这个正常杀毒行为机理特征比对,从而能确定该应用是否属FakeAV类别。此外,4层威胁关联:静态分析,行为分析,恶意软件同类和跨类关联,也帮助实时追踪移动恶意应用变异和演化的过程。

此恶意应用的主要特征:

  • 不能检测到手机病毒,属于FakeAV
  • 尝试从http://malicious.coproration.hxor.ex/test.apk 下载另外一个apk文件
  • 类似Virus Shield,在初始界面右上角有红色的“Secured!”,在“扫毒”完成后“secured”变绿加绿色勾。
  • 唯一的好消息是,这个app不会像Virus Shield那样收取用户3.99美元
  • 点击SMS Scan按钮,或者在几次Fast或Full Scan之后如果再次使用,会弹出用Google账号注册的界面。注册后会通过Google账号来给联系人发送垃圾邮件。
  •  
    此应用威胁报告的更多信息在

    http://www.visualthreat.com/blog/20140429.html

    http://www.visualthreat.com/report.action?md5=16BD4B23B55F0ADE6DF16D8C6DCF502C

     

    恶意应用运行机理,点击下载 Visualthreat安全实验室发现新的安卓FakeAV

    博客发布时没有其他厂商检出此应用为FakeAV
     

    实现机制部分截图:

    MainScreen类,点击SMS Scan或未注册时会执行a(),加载google account登陆页面

     

     

(1个打分, 平均:5.00 / 5)

触控科技招股书概要

触控科技19日向美国证券交易委员会(SEC)提交了IPO(首次公开招股)招股书。招股书显示,该公司计划在纳斯达克上市,拟募集不超过1.5亿美元资金。

以下为招股书概要:

综述

我们运营着一个具有创新力的移动娱乐平台,提供了一整套解决方案和服务,帮助全球各地的开发者在开发、发行和商业化过程中提升效率,并为我们的用户提供互动性极高的移动娱乐体验。我们希望为商业合作伙伴和用户创造重要价值。

针对移动内容开发者,我们可以帮助他们高效地开发热门内容,并为他们的内容发行和商业化提供便利。我们的整套解决方案和服务包括世界领先的Cocos开源引擎、一套内容设计工具包和内容发行服务,例如游戏运营、支付服务、内容本地化、数据分析、技术支持和广告服务。根据艾瑞咨询的数据,我们开发和维护的Cocos2d-x开源游戏引擎是2013年中国大陆、美国和中国台湾收入排名前100的iOS和Android游戏中最为普及的引擎。得益于我们为内容开发者创造的巨大价值,我们已经成为受到中国领先的移动内容开发商信赖的发行合作伙伴。根据艾瑞咨询的数据,按照2013年的毛收入计算,中国排名前4的移动游戏中,有3款由我们发行。

针对移动用户,我们提供了极富魅力的移动娱乐体验。我们提供了种类广泛的自主开发和代理游戏,以及丰富的娱乐内容,提供了一套互动用户系统,并且提供了便利的支付选择。我们的用户基础已经实现了大幅增长,这从我们的平均MAU(月活跃用户)和平均DAU(日活跃用户)中便可看出,我们这两个指标分别从2011年第四季度的1240万和170万,增长到2013年第四季度的5270万和910万。

另外,我们希望为移动娱乐生态系统的其他参与者创造价值,包括移动内容分销渠道和移动运营商,丰富他们的内容,并帮助他们变现用户。根据艾瑞咨询的数据,我们2013年已经分别成为中国移动、中国联通(13.82,0.23,1.69%)和中国电信(46.08,1.00,2.22%)最大的移动游戏营收贡献者,主要是通过我们与这三大移动运营商签订的费用分享协议实现的,他们为我们的很多自主开发和第三方代理游戏提供了支付渠道。

我们的使命是成为全球领先的移动娱乐平台。我们正在探索一套可以为我们的商业伙伴和用户提供长期价值的商业模式,促进移动娱乐生态系统的健康扩张,并推动我们自身的长期增长和盈利能力。

我们的平台由以下核心组件构成:

移动内容开发解决方案

由于移动内容开发者是移动娱乐生态系统的关键,所以我们承诺投资开发领先的技术,并提供一体化的解决方案,让开发者可以提升开发效率,从而为用户提供高品质的移动娱乐内容。

我们开发和维护了全球使用最为广泛的开源移动游戏引擎,Cocos2d-x。为了满足不断发展的技术需求和快速变化的用户偏好,我们已经进一步开发了Cocos-HTML5,以支持基于HTML5开发的移动游戏。我们还在开发另外一个先进版本的Cocos引擎,以支持移动3D游戏的开发。配合着Cocos2d-x,这些先进版本的Cocos引擎可以为开发者提供全面的开源解决方案,从而满足他们的各种开发需求,而且完全免费。另外,Cocos引擎的强大基础架构还可以让开发者轻易渲染一流的视觉效果,将他们的应用扩展到移动游戏之外。自2010年开始,Cocos引擎在全球的下载量已经超过70万次。随着越来越多的开发者使用Cocos引擎,并为其做出贡献,这些引擎还将以更快的速度发展,为娱乐社区提供更好、更高效的解决方案,从而实现良性循环。

我们还利用Cocos引擎提供了CocosStudio,这是一套内容开发和设计工具包,可以简化游戏内用户界面、图形、音效的制作过程。它可以提升游戏开发者的设计效率,并缩短上市时间。另外,我们还提供了支付渠道一体化解决方案、专有数据分析和本地化功能,为开发者提供了有洞察力的指标来优化他们的游戏,从而实现更高的用户互动性和更好的商业化能力。

另外,我们还加强了与内容开发者社区的联系,组织了线上论坛和线下会议。我们相信,我们的CocoaChina.com网站是中国iOS移动内容开发者的最大网络论坛,截至招股书发布时的注册用户大约为31万。我们每半年还会组织一次“CocoaChina开发者大会”,这已经成为中国移动游戏行业最重要的会议之一,参加会议数千人来自移动娱乐生态系统的各个领域。

尽管我们并未通过提供移动内容开发解决方案创造太多营收,但我们相信,开源商业模式可以帮助我们获得良好的声誉,还能带来其他利益。这些利益超过了维护和改善内容开发解决方案所产生的成本,尤其是从长期来看。

移动娱乐内容

我们通过广泛的自主开发游戏、代理游戏和其他移动娱乐内容,以及我们快速增长的互动用户系统Coco,为用户提供了粘性极高的移动娱乐体验。

截至2013年12月31日,我们的游戏组合由98款移动游戏组成,包括16款自主开发的游戏和82款代理游戏。我们被艾瑞咨询评为中国领先的独立移动游戏开发商之一。根据艾瑞咨询的数据,《捕鱼达人》系列(包括《捕鱼达人1》和《捕鱼达人2》)2013年已经跻身中国毛收入最高的3大移动游戏之列。《捕鱼达人》系列自发布以来的激活量达到3.274亿次,截至2013年12月31日的季度内,该系列游戏平均MAU为3760万,平均DAU为700万。

我们与全球娱乐内容领导者合作为用户推出了有创意且吸引人的内容。例如,我们的ATH工作室与迪士尼(79.99,1.04,1.32%)移动合作开发了《喜羊羊小顽皮》游戏,该游戏在发布后一周就成为iOS App Store在中国排名第一的付费游戏。

除游戏外,我们还开发了其他移动内容,包括教育和数字阅读应用。例如,我们开发的《海洋大冒险》教育应用可以教育儿童认识海洋生物,并训练他们的颜色和形状认知能力。《海洋大冒险》已经成为iOS App Store在中国排名第二的付费iPad应用,而且在发布一周后就成为iOS App Store儿童类排名第一的付费iPad应用。我们还开发了《功夫唐诗》教育应用,能够以互动的方式教学龄前儿童学习唐诗。

为了丰富我们的用户体验,我们还提供了互动用户系统Coco(它内置了游戏内和跨游戏社交网络功能)和一体化的支付解决方案。我们相信,随着我们将Coco整合到更多的热门游戏中,并且通过Coco交叉推广更多高品质的内容,Coco将为我们增加用户基础开辟道路。通过增长和扩大我们的Coco用户系统,我们预计用户体验将得到提升,用户粘性也将得以加强。从而促进我们自身的增长。

移动内容发行和商业化

我们还运营着一项已经拥有稳固地位的发行业务和一个强大的广告网络,为移动内容开发者、内容分销渠道和移动运营商创造了重要价值。我们与领先的国际和区域性内容提供商合作发行他们的一流游戏,合作企业包括Konami、Gameloft、Fincon、Locojoy和Yinhan,发行的游戏则包括《你好英雄》、《时空猎人》、《我叫MT Online》等。我们还经营着一项增长迅速的国际游戏发行业务。例如,我们2013年10月在韩国发行了《秦姬》。当月底,它已经成为韩国iOS App Store排名第一的动作游戏,以及韩国Google Play排名第四的街机和动作类游戏。

由于大量的热门移动游戏都是用Cocos引擎开发的,加上我们的引擎维护团队在开发阶段为其提供了很多技术支持,所以我们可以提前获得移动内容,从而识别出有成功潜力的内容。另外,我们还帮助移动内容提供商与300多个分销渠道和大型支付渠道建立了联系,投放定向广告和推广计划,收集深入的商业分析数据,并且获得持续的技术支持。我们的发行能力,加上我们强大的本地化能力和我们广泛而高效的分销网络(包括中国几乎所有的一流移动内容分销渠道),让我们能够高效地接触到高质量的庞大用户基础。我们相信,在这些因素的共同作用下,我们成为了受到移动内容开发者信赖的合作伙伴,有时还可以帮助我们以优惠的条件从他们那里代理到热门游戏。我们的高品质内容帮助我们进一步加强了与分销渠道的关系,并且获得了渠道商的承诺:将利用他们的资源优先为我们的内容提供分销和推广,这又形成了一个良性循环。

我们通常会向第三方游戏开发商支付一定的预付费或最低担保费,然后按照预先约定的百分比与这些游戏开发商分享代理游戏的收入。总体来看,在扣除了分销和其他费用后,约有30%至50%的代理游戏净收入分配给了第三方游戏开发商,而作为游戏发行商的我们则保留了50%至70%。

我们经营了一个移动广告网络来推广我们自己和第三方开发者制作的内容,并帮助他们变现流量。利用强大的数据分析能力,我们可以分析自己平台上的用户流量,并发布精准的定向广告。我们的移动广告网络为开发者提供了有效的营销和额外的商业化机会,从而为我们的营收增长做出贡献。

阅读全文»

(没有打分)

中国公有云健康安全监控系统

(1个打分, 平均:5.00 / 5)

From Bandits to Monte-Carlo Tree Search: The Optimistic Principle Applied to Optimization and Planning

这次带来的是美国Now Publishers的Foundations and Trends in Machine Learning系列期刊的第七卷。本卷是该系列的最新一期,这篇著作讲述了乐观原则在优化和规划问题上的应用。小编一直在纠结是从第一卷开始发,还是从最新一卷开始发,考虑到时效性,还是选择了最新一卷。来日方长,哈哈~(Foundations and Trends系列期刊收录了二十个前沿领域的前沿论文和综述论文。该系列期刊影响因子及质量较高,编委来自美国一流大学且均为所在研究领域的权威学者。其作者均为该领域的世界级学科带头人、专家,保证每篇文章都反映了最新的技术发展水平。每期由一篇或多篇超过一百页的专论组成。)

(没有打分)

Visual-Textual Joint Relevance Learning for Tag-Based Social Image Search

随着社交媒体网络的流行,研究者们对基于标签的社交图片搜索研究投入了很多精力。但是多数现有的方法都没能同时的利用图像和文本信息。这篇论文提供了一种能够同时利用图像和文本信息来判断图像的相关性的方法。对相关性的估计是由超图学习方法来实现的。详情请看论文内容。

(2个打分, 平均:2.50 / 5)

Google Flu Trends: Algorithm Dynamics

正文中的指代:

文章A:Lazer D, Kennedy R, King G, et al. The Parable of Google Flu: Traps in Big Data Analysis[J]. Science, 2014, 343(6176): 1203-1205.

文章B:Butler D. When Google got flu wrong[J]. Nature, 2013, 494(7436): 155.

文章C:Copeland P, et al. Google Disease Trends: an Update. International Society for Neglected Tropical Diseases. 2013. available at: http://patrickcopeland.org/papers/isntd.pdf

 

本文继续讨论文章A作者认为导致GFT出错的因素(two issues that contributed to GFT’s mistakes)之二:Algorithm Dynamics。

在系列(一)中简单提过,作者(在所有可能产生混淆的情况下,下文出现的“作者”均指文章A的作者,没有例外)所说的Algorithm Dynamics包括2个意思:1. Google的工程师为改善服务对算法做出改动;2. 用户使用行为的改变。作者认为,这两个因素致使GFT对流感趋势的反映不稳定。(At a minimum, it is quite likely that GFT was unstable reflection of the prevalence of the flu because of algorithm.)

 

在文章A发表之前,对GFT预测有偏最常见的解释是:在(前一个)流感期间,媒体的宣传报道引起更多本身没有生病的人进行与流感有关的检索,(The most common explanation for GFT’s error is a media-stoked panic last flu season.)导致对今年流感样病例的较高估计。

比如,在2013年初,GFT的预测值是实际值的2倍,文章B中写过,一些专家认为the problems may be due to widespread media coverage of this year’s severe US flu season, including the declaration of a public-health emergency by New York state last month. The press reports may have triggered many flu-related searches by people who were not ill.

文章C(第一作者Patrick Copeland,目前职位:Senior Engineering Director – Google)记录了针对GFT(以及Google Dengue Trends)在2012年表现出来的overestimating influenza-like illness (ILI)所做的改进。其作者在文章中提到:We have concluded that our algorithm for Flu and Dengue were susceptible to heightened media coverage.

 

然而文章A的作者认为:媒体报道导致用户群体行为模式的改变是可能的影响因素,却无法解释为什么GFT曾经在连续108个星期中有100个星期的预测值偏高。(Although this may have been a factor, it cannot explain why GFT has been missing high by wide margins for more than 2 years.)(GFT has missed high for 100 out of 108 weeks starting with August 2011.)如下图,参考线右侧为包括100个overestimate数据点的108个星期的数据。

他们认为可能性更大的原因是Google搜索算法的变动。(A more likely culprit is changes made by Google’s search algorithm itself.)并用blue team和red team来比喻来自两个方面的作用力。

注:”blue team”和”red team”在英语中义项较多,在此不做过多解释。

文献来源:文章A

 

1. “blue team” dynamics

– where the algorithm producing the data (and thus user utilization) has been modified by the service provider in accordance with their business model

也就是前面提到的Google主动修改算法。在文章A随附的supplementary materials中,从第10页开始图文并茂的展示了多个作者认为会导致GFT结果不准的Google对算法的改动。这里拣选作者在正文提及的供大家管窥。

案例1

2011年6月,也就在GFT开始持续高估ILI的前几个星期,Google新增了相关检索这一功能。比如,检索“flu”会返回流感诊断和治疗的推荐。作者认为,这导致了流感诊断和治疗检索次数的虚高,并进一步使得GFT的预测不准。(是的,没有提供“事实”,只有“推测”。案例2也是这样。)

案例2

2012年2月,Google推出Health Search Box服务:当用户检索某种症状时,会返回症状可能的诊断。作者尝试检索“runny nose and fever”,返回的结果中“flu”和“common cold”分别排在第一、二位(见下图)。作者由此推断,Health Search Box可能导致了2012-2013年间流感高发季节,GFT统计的 “cold vs flu”和“cold or flu”的搜索数量激增。(As the reader can see, the top two results are for the flu and the common cold. This seems a likely reason why searches like “cold vs flu” and “cold or flu” seem to spike up in the 2012-2013 flu season.)

文献来源:文章A的supplementary materials

或许作者也意识到,单纯罗列假设很难make a case,于是在另外的切入点提供了一个用户行为确实被改变的事实论据。

案例3

Google发布Health Search Box时,提供了一个演示案例,如下图。作者认为,这种情况相对罕见。

注:“这种情况”是指用户一次性输入检索词“abdominal pain on my right side” exactly。因为Google在为GFT建模时,统计的是一次完整的用户输入为基本单位,不对其做其内容任何处理。

文献来源:Improving health searches, because your health matters, Google; http://insidesearch.blogspot.com/2012/02/improving-health-searches-because-your.html,转引自文章A supplementary materials

而实际上,在Google发布公告前后,“abdominal pain on my right side”的检索次数(模式)真的有明显不同,见下图。

文献来源:Google Trends, www.google.com/trends/,转引自文献A supplementary materials,downloaded data available in replication materials.

 

结合三个案例来看,作者说的不无道理。(作者意欲证明,Google对检索服务的改进会影响用户检索模式,并进一步导致GFT模型失效。)但也未到言之凿凿的程度。

写过GRE Analytical Writing的同学应该很容易在上述推理中找到不止一个unstated assumptions,笔者出于写作方便随机总结若干如下:

1. 在案例3中确实能够看到“用户群体行为”的“突发性”变化,但并不意味着这种突发性也存在于案例1和案例2的过程中(待证明);

2. 在案例3中肉眼可见的“突发情况”的极端情况,无非是对“abdominal pain on my right side”的检索由0次增加至约100次。这种变动幅度,在以“某检索词被检索次数占同时期所有检索次数比例”为建模依据的GFT中,对最终结果会产生影响吗(同样待证明);

 

此外,Blue team issues并非Google独有。类似Twitter和Facebook都会频繁被重新设计。作者十分担忧blue team issues对科学实验的可重复性的影响(虽然他们这样担忧的依据也并不充分)。

 

2. “red team” dynamics

– occur when research subjects (in this case Web searchers) attempt to manipulate the data-generating process to meet their own goals, such as economic or political gain

也就是用户利用系统逻辑来达成自己的目的(在过程中可能会扭曲系统逻辑本来的目的)。作者认为这GFT暂时不存在这类问题,但需引起科研人员的注意。

 

小结:

原文:Search patterns are the result of thousands of decisions made by the company’s programmers in various subunits and by millions of consumers worldwide.这一点无需否认。但笔者始终认为,作者将search patterns的变化与GFT预测结果联系起来的推理证据不足。

 

反思:

写到这里,文章A的主体内容介绍完了。围绕文章A展开讨论GFT的系列文章亦到此为止,特此告知。

笔者很消沉。原来,把“一本书”读厚再读薄之后,并没有满溢的成就感,反而是铺天盖地的空虚。

GFT的模型是不完美的,然而这个世界上存在“完美”吗?(据说在英语文化中,perfect一词连比较级的派生含义都没有。)出于对大数据应用的热爱,对GFT自然是爱屋及乌。最初看到这样一篇发表在Science上,为GFT提供改善建议的文章,笔者兴奋坏了。果壳网的简单报道(http://www.guokr.com/article/438117/)对(不读论文原文的)中文读者远远不够,Time.com(http://time.com/23782/google-flu-trends-big-data-problems/)上的内容太通俗,只简单改写了论文内容,以便于更一般的读者接受。然而笔者这一个系列的文章写下来,像是激情过后(It doesn’t have to be sexual.-_-|||。如果是sex过程,涉及到的激素就远不止肾上腺素啦:P),肾上腺素恢复正常水平,空落落——连被子都抱不紧。作者的points都是老生常谈(大言不惭地说,所有的统计分析都需要纠结这些问题)。退一步讲,即便是旧瓶装新酒,作者也没有给出solid evidence,证明GFT存在这些常见统计分析问题,并且,就是这些统计分析过程降低了GFT预测的准确程度。

 

另外,文章A的supplementary materials还给出了一些实证研究的结果,证明结合使用“大数据”与“小数据”,对ILI的预测准确程度高于仅使用单一类型数据所做的预测结果。对此,笔者的看法是这样的。

笔者(还是那个“大数据婊”)在系列(二)中提到过,GFT的伟大之处在于“即时”,甚至“超前”。GFT比CDC提前发布预测结果的2个星期时间,人类有机会去挽救,死亡或痛苦。笔者认为,在“实时”甚至“超前”面前,准确率必须退居次要位置。更何况GFT到目前为止的预测结果在变化方向上无差错。作者纠结的只是数值大小。

正因大数据的这个特性是传统数据所不具备的,所以将两者综合使用会损失掉大数据的这一优势。也正因如此,笔者同意GFT需不断完善其算法,提高准确率,但“提前性”不容compromise。

“I’m in charge of flu surveillance in the United States and I look at Google Flu Trends and Flu Near You all the time, in addition to looking at US-supported surveillance systems,” says Finelli. “I want to see what’s happening and if there is something that we are missing, or whether there is a signal represented somewhat differently in one of these other systems that I could learn from.”(from文章2)

——笔者看来,对于非大数据应用研发人员,这种心态就很健康。

(没有打分)

The Mathematics of Romance (1):Preliminary

几天前的Mozilla CEO一事沸沸扬扬。自2013年4月,经过近1年的苦苦寻找,Mozilla终于在3月25日公布了新CEO人选——JavaScript创建者、Mozilla当前CTO——Brendan Eich [1]。然而,10天之后(4月4日),新上任的CEO即因曾经(2008年)支持加州反同性恋婚姻提案、捐款1000美元,以及公开发表过歧视同性恋的言论,被迫离职[2]。

关于前文所列原因的真实性,作为怀疑论者的笔者始终存疑。不过,一些媒体截取了部分Twitter上的“民意”,展示出Eich的不受欢迎(可参考下图[3])。

不管怎样,另一个角度的报道更吸引笔者:“The Hypocrisy of Sam Yagan & OKCupid”(笔者试译:“假惺惺的SY和OKC”)[4]。

So, who is Sam Yagan? & what is OKCupid?

简单的说,Sam Yagan是OkCupid的联合创始人。OKCupid是一个很有名气的相亲网站。

Sam Yagan is an American Internet entrepreneur best known as the co-founder of OkCupid. In 2013, he was named to Time Magazine’s 100 Most Influential People in the World’s list. He is currently the CEO of the world’s largest e-dating site, Match.com.[5]

注:2011年2月2日报道,Match.com以50 million美金收购OkCupid。[6]

他们做了什么?

3月31日,用Mozilla登录OKCupid的用户会看到以下内容:

“Mozilla’s new CEO, Brendan Eich, is an opponent of equal rights for gay couples. We would therefore prefer that our users not use Mozilla software to access OkCupid.”[7]

他们在联合OKCupid用户抵制使用Mozilla,以表达对新任(2014年3月上任)CEO在2008年曾经给加州反同性恋婚姻提案捐款1000美金这一(系列)行为及其所代表立场的否定。

“假惺惺”一文认为:OkCupid played a major role in the successful effort to bring down Mozilla CEO Brendan Eich.(OKC在扳倒Brendan Eich中起到了决定性作用。)并质疑OKC此举的动机:PR,nothing but PR。(具体内容请参考原链接,作者用一个事实论据巧妙地佐证自己的观点。因与本系列文章主旨无关,不在此详述。)

By the way, OKC在4月2日撤销了上述行为。

笔者在此补充一项数据(除“说明”数据本身之外不做任何解读,读者可自行用于证明各自的立场)。下图是在Google Trends(googel.com/trends)检索“OKCupid”的结果。图中由A-I标注的点表示OKCupid(以下简称OKC)出现在某媒体头条。在A右侧的区域最小值对应2014年3月热度89,而4月份不完整数据已累积为100(曲线最右端上扬的最高点)。

笔者认为,数据分析从业人员的基本修养(之一),立场并非“必需品”,对“结论诞生过程”的“批判性审视”才是。在这种“朴素推理”产生的结果面前,最有效率的处理方式是保持沉默。(我)既不能提供“硬”数据以支持或反驳,也不能通过比嗓门的方式强迫别人接受(我的)观点。对事情的关注可以简单看看“投票结果”就可以了,即便“结果”也不足以说明“问题”(“少数服从多数”还是“真理往往掌握在少数人手中”?)。关于数据分析结果在其中扮演的角色(社会功能)是另外一个任重而道远的过程,还是让其他“更有话说”的人去说吧。

最后引用张有待(新浪微博@有待)老师在2013-2014深圳迷笛音乐节领奖(中国摇滚贡献奖)时讲的一句话:Time will tell。(他是个寡言的人。)

 

言归正传。这次的the Mathematics of Romance系列将会从OKC出发。

之前提到过一些,OKC is a free friendship, dating and social networking website,在07年被列为Time magazine十大相亲网站之一[8]。

OKC现在是IAC/InterActiveCorp旗下的网站之一(下面列出IAC所有的网站,为读者建立IAC逼格的baseline)。其创始人(Chris Coyne, Christian Rudder, Sam Yagan, and Max Krohn)在鼓捣出TheSpark(OKC的最初版本)的时候还是哈佛大学的学生。

 

文献来源:[9]

OKC除了提供一般的instant messages和emails等服务外,最有特色的是他们计算匹配度的方法。数据源有2个:users’ activities on the site and their answers to questions。通过回答问题,用户不仅给出了自己的答案,也暗示了他/她能够接受的选项范围,以及不同选项对他/她来说的重要程度。对于得分较高的用户,会收到一封邮件告知:他们是OKC最有吸引力的用户,可以在他们的匹配列表中看到更多的attractive people。最后,OKC还会写一句”And, no, we didn’t just send this email to everyone on OkCupid. Go ask an ugly friend and see”.

是不是逼格特别高[笔者很欢乐]。

2009年7月,OKTrends(Dating Research from OKCupid)上线。OKC网站自2004年发布累积了大量数据。OKTrends团队成员分析OKC用户产生的交互数据,在OKTrends(以下简称OKT)的博客上跟大家分享things they’ve learned about people,并且他们只发布那些他们认为有趣的内容。不幸的是,OKT的博客在2011年停止更新。

然而,有了这些博客,笔者得以研究和整理他们的做法(Please keep in mind that这些research是在2009-2011年进行的,与GFT在同一时期诞生)。了解他们是如何利用既有的数据(读者将会在后续文章中发现,同样是“大数据”,GFT与OKC的处理方式并不相同,后续文章将结合实例探讨细节上的差异)、如何根据特定的需求设计数据生成过程、如何在具体的应用情境下解读数据,等等。

我已经迫不及待的要向大家介绍:

1. 你的哪些特质影响你的吸引力(在社交网站上让其他人主动联系你)?

2. 人们在选择感兴趣对象时的博弈心理是怎样的?

3. 第一次向(感兴趣的)陌生人打招呼应该说些什么?

4. 第一次见面时可以聊哪些话题?

5. 以及OKT团队是如何得到这些结论的。

如果不与整个系列的文章冲突,笔者还将介绍另外一个数学博士利用OKC的数据给自己找对象的案例。让我们一起期待吧。

 

补充说明:

同GFT一样,OKT同样十分注重用户隐私,他们声明:

All data is anonymized and aggregated; no member of our blog staff sees an individual user’s personal information.

 

最后,以下是OkCupid’s Blog Team的成员名单,是笔者要由衷感谢的人(都是一些经历丰富、十分有趣的人,希望笔者有机会在后续文章中介绍他们):

Sam Yagan—CEO

Christian Rudder—editorial director / data analyst

Max Shron—data scientist

Chris Coyne—creative director

 

参考链接:

[1] Mozilla任命JavaScript发明人Brendan Eich为新任CEO. 张勇. 2014-03-25. CSDN. http://www.csdn.net/article/2014-03-25/2818955

[2] 唏嘘不已!Brendan Eich上任Mozilla CEO仅十天即因歧视同性恋被迫辞职. 钱曙光. 2014-04-04. CSDN. http://www.csdn.net/article/2014-04-04/2819159-mozilla-ceo-brendan-eich-resigns

[3] 同[2]

[4] THE HYPOCRISY OF SAM YAGAN & OKCUPID. 2014-04-06. http://uncrunched.com/2014/04/06/the-hypocrisy-of-sam-yagan-okcupid/

[5] Sam Yagan. Wikipedia. http://en.wikipedia.org/wiki/Sam_Yagan

[6] Christian Rudder. Wikepedia. http://en.wikipedia.org/wiki/Christian_Rudder

[7] OKCupid asks users to Boycott Firefox because of CEO’s gay rights stance, Russell Brandom, 2014-03-31, http://www.theverge.com/2014/3/31/5568136/okcupid-asks-users-to-boycott-firefox-because-of-ceos-gay-rights

[8] OkCupid. Wikipedia. http://en.wikipedia.org/wiki/OkCupid. Accessed at 2014-04-26.

[9] IAC/InterActiveCorp. Wikipedia. http://en.wikipedia.org/wiki/IAC/InterActiveCorp. Accessed at 2014-04-26

(没有打分)

Netflix推荐算法

前一阵子听闻阿里巴巴搞了一个推荐算法大赛,顿时想起Netflix搞过的Nexflix Prize. 大赛始于06年,Netflix希望通过比赛来找到合适的算法,以提高其推荐系统Cinematch的准确率,并承诺给使其准确率(以RMSE作为评测标准)提高10%的个人或团队一百万刀的奖励。最终,融合了多个参赛队伍的混血团队BellKor’s Pragmatic Chaos因为提交时间原因险胜The Ensemble团队,成功提高了10.06%的准确率,在09年拿下该大奖。由于用户及FTC等机构对于隐私问题的忧虑,第二届大赛还没开始就被取消了。在中国,估计应该不会因为这个原因停赛吧?下面就贴出当时获奖团队发表的论文。

Yehuda Koren,The BellKor Solution to the Netflix Grand Prize

A. Töscher, M. Jahrer, R. Bell,The BigChaos Solution to the Net ix Grand Prize

M. Piotte, M. Chabbert,The Pragmatic Theory solution to the Netflix Grand Prize 

(没有打分)

GFT你这么diao,你的伪粉丝们造吗(1)

不懂我的人啊,你什么都别问我,因为我的生活,你从未体验过。——郝云《麦扣让我写首歌》

 

the Original Model (2008)的诞生过程

 

本系列是光明正大给GFT“舔脚”的文章,为了让更多的人知道GFT的低调奢华和内涵。那些质疑和“跟风”质疑GFT的人,麻烦再三思一次。因为你们可能真的“什么”都不知道。

“没有调查就没有发言权[拳头]”——毛主席《调查工作》(即《反对本本主义》)

当然,diao并不意味着“完美”、“没有问题”。本文并非意图堵住所有对GFT的负面看法,而是想让这些潜在的“负面看法”更不无聊一些。

 

(废)话不多说,下面就先看GFT是怎样诞生的。

注:为了让所有的一般问题迅速得到解答,笔者决定跳过背景、目的和意义,直接从实验过程切入。并且按照中国学术界最经典的介绍实证研究过程的文章模板来行文。)

 

一、原始数据

 

1. CDC ILI data

CDC定期统计每周、9个监控地区,所有门诊病人中与流感有关的病人所占比例。(For each of the nine surveillance regions of the United States, the CDC reported the average percentage of all outpatient visits that were ILI-related on a weekly basis.)这个数据可以在http://www.cdc.gov/flu/weekly看到。GFT在建模过程中使用了这些数据。

注:CDC只统计流感期间的ILI data。因此GFT只用时间点的数据来拟合,但是在实际运行时会产生在这些时间点之外的“无效”估计值。(No data was provided for weeks outside of the annual influenza season, and we excluded such dates from model fitting, although our model was used to generate unvalidated ILI estimates for these weeks.)

另外,2003年9月28日-2007年3月11日(包括两个端点)期间的128个数据点为训练集,2007年3月18日-2008年5月11日(包括端点)期间的42个数据点为测试集。

 

2. 与检索词有关的数据

构建GFT的第二个核心元素是2003-2008年间Google用户向服务器提交的检索词。GFT初步选出累积次数最多的50 million个,计算它们每周、由不同地区用户提交的次数,形成时间序列。

注:

(1)一个检索词是指用户的一次完整提交,未对其内容和形式作任何处理。(A query was defined as a complete exact sequence of terms issued by a Google search user.)

(2)不包含任何用户身份的信息。(No information about the identity of any user was retained.)

(3)将上述时间序列中每个时间点的绝对数量转换为相对数量。这样做的原因:a. 不同检索词出现的次数不稳定,随时间、地点甚至语言变化;(Volumes of a particular query are not constant and can vary over time, both short-term and long-term, and by location and language.)b. Google收到用户检索请求的数量不均匀,长期来看是增长过程。(Overall usage of Google search varies throughout the year and is growing over time.)处理方法:检索词在时间点上的绝对次数除以对应时间、对应区域用户向Google提交检索的总次数。(We handle this by computing the query fraction of each query term: the total count of a query term in a given location is aggregated weekly and normalized by the total count of all queries issued in that week at that location.)

 

二、数据预处理

 

1. 数据预处理过程

数据预处理过程从50 million个检索词中选出最终参与到模型中的检索词,选择过程是衡量每单个检索词与(regional) CDC ILI data的拟合程度,挑选标准是provide the highest correlation with the CDC published target signal,即与CDC ILI数据(时间序列)相关性好。

注:

(1)分别在9个区域独立选择参与建模的检索词,因为the chance that a random search query can fit the ILI percentage in all nine regions is considerably less than the change that a random search query can fit a single location。

(2)备选的检索词并未经过任何人工处理,它们所反映的内容是“随机”的。

 

2. 数据预处理结果

经过预处理步骤,得到每个检索词与9个区域CDC ILI data的相关系数,按照mean Z-transformed correlation across the nine regions降序排序。(这里直接写原文是因为笔者怀疑作者的本意是z-score而非z-transform。不方便评论,毕竟笔者只了解z-score,不了解z-transform。)计划选出前n个检索词组成的集合参与建模。

确定n的取值:比较n取不同值时,前n个检索词的总和(时序数据)与CDC ILI data测试数据集(时序数据)的相关性。(We considered difference sets of n top-scoring queries. We measured the performance of these models based on the sum of the queries in each set, and picked n such that we obtained the best fit against out-of-sample ILI data across the nine regions.)n取不同值时,模型的输出值与CDC实际值的相关系数(均值)如下图所示。

当n = 45时,模型对CDC ILI数据的拟合效果最好。当n由80增加至81时,模型的拟合效果迅速下降,第81个检索词是“Oscar nominations”。此时,虽然这45个检索词是随机选取的,但实际上它们在内容上均与ILI有关。

文献来源:Ginsberg, 2009

 

三、预测模型

 

1. 建立预测模型

将这45个检索词(比例)组合得到的1个新变量作为解释变量,拟合2003-2007年间、9个区域的CDC ILI data,建立单变量线性回归模型:logit(I(t)) = αlogit(Q(t)) + ε,其中:

I(t)是CDC统计的每星期中,门诊病人中流感病人的比例;

Q(t)是对应时间Google用户提交的45个检索词占同期提交的全部检索请求的比例;

α是待求参数;

ε是误差项。

需注意:logit(p) = ln(p/(1 – p))。

上述过程之后,每个区域都会得到一个系数。

 

2. 评估预测模型

文献来源:Ginsberg, 2009

图中红线反映的是对应时间CDC统计的实际值,黑线是GFT的估计值。纵向虚线的左侧是训练数据及对训练数据的预测值,右侧是测试数据以及对测试数据的预测值。两条横向的dotted lines之间是预测值95%的置信区间。图中数据反映的是New York, New Jersey和Pennsylvania地区的情况。

(1)对训练数据的拟合效果

预测值与实际值的相关系数(9个区域)平均为0.90(最小值0.80,最大值0.96)。

(2)对测试数据的拟合效果

预测值与实际值的平均相关系数(9个区域)为0.97(最小值0.92,最大值0.99)。

 

四、小结

 

1. “实践检验真理”

按照大学本科高年级阶段最常见的记录实证研究过程的模板介绍完,不难发现,整个过程除去Google search queries的部分,从实验步骤到分析方法,都刚刚非数学专业(比如信息管理类)本科(甚至硕士)毕业论文的一般标准。(还有没毕业的读者有福了:模仿上述思路,更换研究对象,可以是一份很工整的毕业设计)

当然,若是谨慎考究,也能够在上述过程中发现若干unstated assumptions及对应的alternative explanations,比如:

数据预处理时,从50 million选出45个检索词,一定要是top 45吗,有没有其他方法?

模型logit(I(t)) = αlogit(Q(t)) + ε,是否会有效果更好的模型?

等等。正如之前(Lazer, 2014)一文中所总结的,对GFT的质疑有数据的代表性和模型的有效性两方面。

存在alternatives并不足以推翻一项实证研究。至少,存在alternatives并不代表GFT现有的做法有问题。最直接的判断标准是看表现。从2008年11月发布一直到2012-13年的流感季节,误差最大的是1.13个百分点(2012年1月1日那个礼拜),CDC收集的数据位1.74%,GFT预测的数据是2.86%。整个时段内的平均绝对误差为0.03个百分点。(From the launch in 2008 until the 2012-13 season, the highest estimation error for national flu incidence was 1.13 percentage points (week starting Jan. 1, 2012: CDC data 1.74%%, GFT estimate 2.86%), and the mean absolute error during this period across all weekly estimates was 0.03 percentage points.)换句话说,GFT从发布至2012年底,works well

 

文献来源:Copeland, 2013

 

2. Footprints of GFT

从上述GFT诞生过程也可以看出,GFT(至少是the original model)最精华(priority)的并非是数据分析过程。笔者看来,GFT的创举以及他们本身最在意的,是对Google search queries(“大数据”)的处理。当然,这些科学家也确保了对数据处理和分析过程可推敲。

从GFT后面2次update的侧重点也可以看出,GFT团队的重点也在转移。

第一次update(对应GFT第二个版本)修改用于建模的数据(增加了非季节性流感的实际数据);

第二次update(对应GFT第三个版本)修改了媒体放大作用对模型的影响;另外,将模型复杂化,而且直接使用的是算法界的新贵:elastic net。

OK,预知后事如何,且听下回分解吧。

Coming soon:

GFT你这么diao,你的伪粉丝们造吗(2):GFT 2.0: updated(2009)

GFT 2.0的改动;

GFT 2.0与1.0的比较;

GFT你这么diao,你的伪粉丝们造吗(3):GFT 3.0: updated(2013)

GFT 3.0对在媒体影响下的用户行为的处理;

GFT 3.0的建模算法;

 

最后的最后,弱弱的点个题:那些曾经以为GFT是时间序列模型(或其他不真实的认知),请自觉抱头下蹲唱国歌。

 

参考文献:

Ginsberg J, Mohebbi M H, Patel R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.

Copeland P, et al. Google Disease Trends: an Update. International Society for Neglected Tropical Diseases. 2013. available at: http://patrickcopeland.org/papers/isntd.pdf

(没有打分)