NAND FlashNANDNOR

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

很多人只知道NAND Flash却不知道NOR Flash,知道NAND Flash却不知道“NAND”和“NOR”是什么意思,以及其底层机制。本文做了说明。由闪存前沿厂商@PMC官方微博 提供支持!更多内容可参考《大话存储2》修订版。这里不过多叙述NAND Flash基础原理和知识。

当需要读出某个Page时,Flash Controller控制Flash芯片将相应这个Page的字线,也就是串连(实际上属于并联)同一个Page中所有Cell上的CG的那根导线,电势置为0,也就是不加电压,其他所有Page的字线的电势则升高到一个值,也就是加一个电压,而这个值又不至于把FG里的电子吸出来,之所以抬高电势,是为了让其他Page所有的Cell的S和D处于导通状态,而没被加电压的Cell(CG上的电势为0V),也就是我们要读取的那些Cell,其S和D的通断,完全取决于其FG中是否存有电子。说白了,未被选中的所有Cell,均强制导通,被选中的Cell的FG里有电,那么串联这一串Cell的位线就会被导通,这是一种AND也就是与的关系;被选中Cell的FG里如果没电,那么其所处的Cell串的位线就不能导通(虽然串上的其他Cell均被强制导通),这也是AND的关系。也就是一串Cell,必须全导通,其位线才能导通,有一个不导通,整条位线就不通。这就是NAND Flash中的“AND”的意义。那“N”表示什么?N表示Not,也就是非,NAND就是“非与”的意思。为什么要加个非?很简单,导通反而表示0,因为只有FG中有电才导通,上文也说了,FG中有电反而表示0,所以这就是“非”的意义所在。

还有一类NOR Flash,NOR就是“非或”的意思,大家自然会想到,位线一定不是串联的,而是并联的,才能够产生“或”的逻辑。实际上,在NOR Flash里,同样的一串Cell,但是这串Cell中的每个Cell均引出独立的位线,然后并联接到一根总位线上,另外一点很重要的是,每个Cell的S和D之间虽然物理上是串连,但是电路上不再是串联,而是各自有各自的接地端,也就是每个Cell的S和D之间的通断不再取决于其他Cell里S和D的通断了,只取决于自己。以上两点共同组成了“或”的关系,同时每个Cell具有完全的独立性,此时只要通过控制对应的地线端,将未被选中的Cell地线全部断开,这样它们的S和D极之间永远无法导通(逻辑0状态),由于每个Cell的位线并联上联到总位线,总位线的信号只取决于选中的Cell的导通与否,对于被选中的Cell,NOT {(“地线接通”AND“FG是否有电”)OR “未被选中Cell的输出”} = “总位线的1/0值”,这就是NOR非与门的逻辑。

由于NOR Flash多了很多导线,包括独立地线(通过地址译码器与Cell的地线相连)和多余的上联位线,导致面积增大。其优点是Cell独立寻址,可以直接用地址线寻址,读取效率比NAND要高,所以可以直接当做RAM用,但是写入时由于擦除效率比NAND低,所以不利于写频繁的场景。

 

(3个打分, 平均:5.00 / 5)

科技一周~最好的时代与Facebook的增值广告

科技一周~最好的时代与Facebook的增值广告

2014/02/23

每一个初创公司都像一支烟花,未到时节则静静地睡在角落,纸衣石心,脆弱里包裹着强大,冰冷中揉杂着热火,只待那荧荧一闪,便横陈夜空,在这最好的时代,绚烂至顶。对于互联网初创公司而言,历史已然来到了最好的拐点:富可敌国的巨头不再像十多年之前的微软,以垄断钳制作为手段,相反,则以高估值的金元来完成从产品到人才的战略性收购。一个“聪明”的初创者,总能够在这个时代找到属于自己的提现公式:

  • WhatsApp,初创四年的公司,人员不满五十,营收未及五千万,仅有一款即时通讯产品,被Facebook以$19B的价码收入囊中^@&@^[1]。对比一下另外两个巨头,我们不难得出如此结论:Facebook果然太慷慨了。迄今为止,搜索巨擎Google的最大一笔收购是在2011年收购摩托罗拉移动,价码$12.5B,而彼时,摩托移动拥有两万名员工,年营收$13.1B[2]。而世界第一大科技公司Apple的最大一笔收购,则是在1997年以$0.4B的价格收购NeXT公司,要知道,NeXT当时的CEO可是大神乔布斯。我只能说,现在这个时代太好了,好到还未曾风雨,就已彩虹满天。
  • Google正与湾区的几个城市商谈建设千兆光纤,其中,San Jose与Sunnyvale的市长已表态希望能尽快开工[3]。如果一切顺利,Google最早会于2015年开始在湾区架设千兆光线网络:Google Fiber。Google Fiber将会为用户提供三种服务:1. 千兆网络+高清电视($120);2. 千兆网络($70);3. 5Mbps网络(免费)。如果Google Fiber能够普及,那么老牌有线电视与宽带运营商,Comcast,将会彻底崩溃,因为Comcast只能以与前两项相同的收费,提供25Mbps的网络和标清电视服务。
  • 第一个狗币(Dogecoin)ATM亮相温哥华CoinFest数字货币节。该ATM的尺寸比Nexus 7略小,允许用户通过扫描二维码购买狗币[4]。在Mt Gox出现比特币提款危机的情况下,各种虚拟货币的价格都大幅下跌,比特币更是从最高峰的$1200跌倒低于$100。现在数字虚拟货币的前途究竟如何,恐怕一时间没有谁能说得清楚,但无论如何,狗币ATM的出现,还是让我们看到,仍有一群Geek在孜孜不倦地为虚拟货币的发展奉献着自己的青春。

本周的科普,来谈谈Facebook广告对搜索广告的影响。前文提到Facebook甘心花费$19B来收购WhatsApp,毫无疑问,是冲着WhatsApp 4.5亿的用户群而来,那么Facebook为何对用户数量如此在意呢?这就要从Facebook的商业模式讲起。与Google一样,Facebook也是以互联网广告做为自己的主营业务,并且在“显示广告”(Display Advertising)里占有巨大的份额。但不同的是,Facebook一年$8B的“显示广告”营收与Google一年$50B的“搜索广告”(Paid Search Campaign)营收,相去甚远。Facebook当然不满足于只固守“显示广告”业务,它也正在千方百计地把自己的广告业务“渗透”到Google的“搜索广告”里去。只不过,Facebook并没有去再开发一个搜索引擎来与Google正面竞争,而是采取了一种略微隐晦的方法,甚至可以说是与Google双赢的方法:用自己的“显示广告”去影响用户消费行为,从而影响“搜索广告”。

衡量“搜索广告”效果的优劣,有四个重要指标:ROAS(Return on Ad Spend,=营收/广告花费);CTR(Click-through rate,=点击次数/显示次数);CPA(Cost-per-acquisition,=广告花费/触及用户次数,“触及用户”的包含了显示、点击、邮件推送、等等所有可以触及用户的方式);AOV(Average Order Value,=营收/订单次数)。来自Kenshoo的一份报告显示,在Facebook上同时做“显示广告”,会给“搜索广告”带来更大的增值效果:ROAS增值30%,AOV增值24%,CTR增值7%,而CPA的费用则减少4.5%[5]。换句话说,如果广告主在投放“搜索广告”的同时,也在Facebook投放“显示广告”,那么除了“显示广告”的本身收益之外,Facebook还可以给“搜索广告”带来显著的增值收益。

Facebook广告之所以有如此的增值效果,与其庞大的用户数量息息相关,它可以从海量的用户信息里来分析用户的消费行为。简言之,用户数量越多,Facebook所收集的信息越多,分析的也就越准确,其广告的增值效果也越大。说,用户数量是Facebook构建商业帝国之根本,丝毫也不为过。

 

[1]. Barbara Ortutay, Facebook buying messageing app WhatsApp for $19B, http://finance.yahoo.com/news/facebook-buying-messaging-app-whatsapp-225610396.html, Feb 2014.

[2]. Motorola Mobility, Annual report 2011, http://files.shareholder.com/downloads/ABEA-58XVPR/2044382714x0x561829/C636C146-7901-45E3-BC3C-6A82FD06B763/MMI_-_2011_Final_Annual_Report_291113_030.pdf , Feb 2012.

[3]. Brandon Bailey, Ultrafast Google Fiber seeks to expand in 9 metro areas, http://www.mercurynews.com/business/ci_25180109/google-plans-big-expansion-fiber-internet-service-invites , Feb 2014.

[4]. Alistair Charlton, Cryptocurrency news round-up,  http://www.ibtimes.co.uk/cryptocurrency-news-round-worlds-first-dogecoin-atm-arrives-bitcoin-remains-stable-1437037 , Feb 2014.

[5]. Kenshoo, Added value: Facebook advertising boosts paid search performance, http://www.kenshoo.com/fbaddedvalue/ , Nov 2013.

图1. [1].

图2. [4].

图3. [5].

(2个打分, 平均:3.00 / 5)

LinkedIn 2004B

linkedin

本文是LinkedIn在2004年时的B轮融资商业计划书,Reid Hoffman在2013年把这份PPT公布了出来,并以投资人的角度详细了分析了LinkedIn每一个发展步骤所处的行业背景,在LinkedIn数据极为贫瘠的情况下以类比等方法论证LinkedIn可能的商业模式,并对创业者的融资过程提出了详细的建议。本文是在投资经理汪怡宁(微信公共号:gene_angel)的投稿基础上修改、编辑而发表的。

在 Greylock,我和我的合伙人只有一个目标,那就是时刻帮助创业者。我们并不在乎这个企业我们是否投过,或者正在考虑投资,亦或只是随便的见了第一面。

创业家通常带着自己的募资演讲稿(pitch decks)来寻求我的帮助。因为在 Greylock,我们重视完整性和保密性,从不泄露募资演讲给其他人。不过我现在非常荣幸的能够公布 2004 年 LinkedIn 在 B 轮融资中呈现给 Greylock 的演讲稿。

刚刚过去的五月是 LinkedIn 的 10 岁生日,回顾我的创业之旅,我意识到没有人看见过成功企业的募资演讲稿。于是我产生了这个想法:如果我将这份演讲稿公布给所有人,而不仅仅是在 Greylock 的企业网络内部共享,将帮助更多的创业者。商业计划书内容如下:

 

  • 创业者应该如何进行演讲稿的写作
  • LinkedIn 作为公司的进化史
  • 2004 年与现在消费互联网的异同

—Reid Hoffman

Slide01.jpg

背景

建议

2004 年的消费互联网才刚刚开始反弹。Friendster 于 2003 年秋从 Benchmark 和 Kleiner 融到新一轮资金后,开始在新的高度上与 Myspace 展开竞争。顺便提一句,Facebook 那时候还没有进入到大部分人的视野之中。

Friendster 的估值整个社交网络估值的参照。Friendster 和 MySpace 拥有百万级用户,一大堆的契约和所有媒体的关注。媒体和分析师将 LinkedIn 的特点归结为两个方面:“一个有趣的利基市场,也许值得关注”或者是“LinkedIn 是商业领域的 Friendster”。但这两点无论哪个都不是融资的筹码, 因为:

 

  1. 我们不是市场的天然领导者或是每个人都在关注的技术领域领导者;
  2. 我们没有大量的内部增长率;
  3. 也还没有收入。

 

投资人看过太多的演讲稿。一年当中,一个典型的 VCGP 可能会收到 5000 份演讲稿;从中挑选 600-800 个认真阅读,并完成 0-2 个投资。创业者的目标当然是成为其中之一。

首先,理解你的听众。仔细的研究潜在投资者。他们关注什么样的项目?他们是依据什么模型 / 准则 / 动机来判断一个项目是否会成功?如果你不对投资人的观点有一些理解,你的演讲稿的最终效果就更难以确定,你有可能偶然的恰好抓住了投资人的兴趣点,但是你的融资过程不应该只靠运气。

第二,理解融资大环境。2004 年,投资人重新对消费互联网提起了兴趣。Friendster 在 2003 年刚刚进行了一轮较大金额的融资;Myspace 开始有了吸引力。但是太多的投资人仍没有从网络泡沫破灭中走出来,仍只关注成熟的商业模式,例如广告或者电子商务。所以,我们知道我们的演讲稿必须说服投资人最大的担忧:缺乏收入。

Slide02.jpg

背景

建议

第一页,我们回答了 3 个问题:

  • 什么是 LinkedIn?我们选择了图象表达:这是一个人的网络;
  • 为什么它有价值?因为你可以找到并联系你需要的人脉;
  • 它有什么不同?不像 Google search 或者其他方式,它包含你已经信赖的人们。

 

尽管我们了解招聘将会是我们最初的商业机会,但我们坚信(而且现在已经确认)LinkedIn 不只是一个招聘网站。所以我们的演讲稿将 LinkedIn 构建为一个找到你需要的人脉的平台,我们把它称之为“专业人才搜索引擎 2.0”,使之能与 Google 相提并论,因为投资人已经了解了 Google 的价值。(在第 5 页,我会开始解释类比的重要性)

如果我们将 LinkedIn 仅仅定义为一个“工作 / 分类广告”网站,大部分聪明的风险投资人就不会感兴趣了,因为它似乎缺乏大平台的潜力而难以承载大的商业愿景。最终,Greylock 的投资主题是 LinkedIn 将是一个伟大的招聘生意并有更多的发展选择。

以你的投资主题开篇,这个主题得让想成为公司股东的潜在投资人信服。第 1 页应该用 3-8 个要点清晰的说明这个投资主题。然后,用演讲剩下的部分为这个投资主题提供论据支撑,并提升投资人的信心。

例如:如果是今天的我来准备当年 LinkedIn 的 B 轮演讲稿,并用上我所知的优秀演讲稿法则,那么这个投资主题将是这样的:

 

  1. 网络将建立大量的有价值资产。
  2. 不同的领域将会有不同的网络。
  3. 专业领域的网络将有巨大的价值。
  4. 我们是专业领域的领头企业并在实现病毒性增长。
  5. 从匹配人才和机会开始,伟大的商业将在这个网络上构建起来。
  6. 这是一个有网络效应的商业,表明借助于网络,我们具有内在的壁垒。

 

明确的表明你的投资主题,这样投资者可以给予反馈帮助你完善它,最终使双方达成一致。在投资主题上的任何分歧都会在接下来引起一系列的问题。

Slide03.jpg

背景

建议

通常,你认为我们会开始解释我们的产品,例如什么是“专业人才搜索引擎 2.0”。但是,我们的策略是直接引到收入问题上来,因为这是 2004 年投资人最关心的问题。请记住,LinkedIn 当时是一个具有中等吸引力的消费互联网企业,而且一毛钱收入都没有。

为了说明潜在的收入流,我们列出了 3 个产品:广告、列表和订阅。蓝色的框框代表 3 种产品相应的市场。尽管三个蓝框一样大小,但我们知道未来收入最大的来源将是从招聘市场上得到(第 2 个标着“工作”的蓝框)。

我们不知道那种产品将有更高的价值,尤其是在清单和订阅之间。长期来看,我们更看好订阅,但是我们不知道需要多长时间才能到达这种状态。2005 年,我们发布了所有 3 个产品,依次是清单、订阅和广告,最终得到了 2 个惊人的领悟:

  1. 列表和订阅的主要市场是招聘市场,而不是企业扩张和网络市场。
  2. 订阅以比预期更快的速度成为了最有价值的产品。

在 2013 年的今天,LinkedIn 的主要收入来源于订阅产品的企业版。

一般的规则:一种商业模式推动整个业务。你会试图列出多个收入流以证明公司能发展的很大。但是如果消费互联网公司这样做的话,投资者往往会认为这是危险的信号。

善意的解释是,而且适用于我们的情况,公司团队并不知道哪种模式将会起作用。不好的解释则是团队缺乏重点并且不了解只需要一个商业模式驱动就能成功。

我们犯了一个错误:列出了 3 个不同的收入流。但它确实发生了,我们最终追求 3 条业务线。LinkedIn 被证明是一个经验准则的例外:我们的不同业务线有很强的相互促进作用。

一般规则有时会出现例外,并会非常有价值。这一点对于战略、创业、甚至是演讲稿都是正确的。

Slide04.jpg

背景

建议

将收入问题解决掉之后,我们就可以解释我们的产品了。我们有两个问题需要回答:产品是什么?创新点在哪里?

我们认为,当时的专业人才搜索方式(1.0)是不够的。为了证明这一点,我们列举了 3 个重要的专业问题(找到服务商、找到求职候选人和寻找专业人才),在现行技术下都是耗时同时难以达到的。

关键问题在于现存技术是反向选择,尤其是参与者的激励机制和声誉系统:

  • 黄页:人们希望被发现但是他们表现自己的方式与他们自身的能力没有任何关系。
  • 旧式的简历数据库:大部分有才华的专业人士不希望或压根不需要参与进去。
  • 目录:只有部分有才华的专业人士先进入,其他专业人士才会想要加入。

 

所以,怎么才能建立一个平台,让有才华的专业人士可以参与,能够发现,并且可以联系上?我们的答案是一个网络。由于他所有的朋友和联系都建立在网络之上,朋友的朋友也在上面,所以网络能解决这个问题。建立一个正确的激励机制和声誉系统将使目录名单中的人们也成为其中的一部分。

引导投资者的反对意见。融资中总会有 1 到 3 个潜在问题将成为阻碍——正面写下他们。你在前两页已经吸引了投资人的大量注意,这时大部分投资人将会产生疑问,如果你主动表明了你理解他们的主要担忧,你就能在剩下的演讲中继续得到投资人的关注。

2004 年的消费互联网产业,由于刚刚经历了互联网泡沫,投资人主要的担心是我们能不能挣钱。你还记得,我们以收入问题作为演讲的开始,因为我们并没有数百万的用户增长图,否则,我们就会用那些图作为开始了。

2013 年,这个问题变成了你能否突破重围。现在,每季度可能有上千家消费互联网初创公司诞生,你如何能在 7 年时间内成为领域的前 3 名?这些会是你要在演讲开始的时候需要直面的投资人的怀疑声音。

Slide05.jpg

背景

建议

大部分技术革命建立在 1-2 个简单的概念之上,我们的这个简单概念就是:

网络提供了一种人才搜索的新型平台,这个平台还能够承载其他的商业模式。

为了相信 LinkedIn 是一个不错的投资标的,我们的投资人必须相信从目录转向网络(1.0 到 2.0)是一个广泛的趋势,网络可能产生巨大的价值,而且 LinkedIn 应用网络的人才搜寻方式将成为非常有价值的资产。

尽管 Tim O’Reilly 深化了“互联网 2.0”的含义并将其推而广之,但回顾 2004 年的夏天,我们可能是第一批讨论“互联网 2.0”的人。

展示,但不要明说。再次说明,你演讲的目标是增强投资人对于投资主题的信心,让他们分享对于公司所面临困难的观点。要达到这个目标,你应该展示而不是一有机会就明说。

只有当投资人以自主意志认为投资主题是值得的,而不是创业者告诉他们这一点时,创业者才真正赢得了胜利。

对于早期企业,重要的是要表明你正在前进的路上,你有前景,你可以实现自己的愿景。

Slide06.jpg

背景

建议

一旦投资人相信专业人才搜索引擎是有价值的,下一个问题就是互联网 2.0(向网络转变)是否能显著的放大这个价值。为了表明这一点,我们展示了其他市场中向 2.0 转型所产生的价值。

首先,我们看产品列表。1.0 时代就像报纸的在线分类广告,没有取得成功。另一方面,eBay 却是真正有价值的。eBay 到底有什么区别?它是一个网络,它有信誉系统,能够保存交易记录。在在线分类广告上加一个网络,就变得有价值了。(试想如果 Craigslist[1] 有声誉系统和身份认证的话,将会多么有价值)

用类比来做演讲。每个伟大的消费互联网公司都会成为一个独特的组织。但是在它们早期的岁月里,你想要将它们与成功的公司进行类比来描述公司到底是什么,潜力在哪里。时光短暂,参考投资人已经了解的信息将非常有用。

我所知最优秀的融资演讲是好莱坞电影“Man’s Best Friend”,标题叫“Jaws with Paws”(有爪子的大白鲨)。投资人认为既然电影“大白鲨(Jaws)”特别成功,那建立在相似前提上的描写狗的电影也很可能会成功。这个电影最终表现惨淡,但是融资演讲是非常优秀的。

Slide07.jpg

背景

建议

下面,我们看看网络支付。尽管银行系统内已经开始向网络支付转变,但 PayPal 的网络支付模式仍是独一无二的。在这个案例中存在的问题是欺诈。由于银行没有访问整个支付网络的渠道,只能接触到网络中一个个的单个节点,所以银行难以发现欺诈行为。

我们用 Paypal 作为案例的另一个原因是提醒我是 Paypal 创始团队中的一员——一个关于“展示,但不要明说”的小例子。

要清楚什么时候类比适用,什么时候不适用。用类比写演讲稿,但不必用类比来理性思考。当你在考虑商业策略时,用类比是一个危险的行为。

在创业的土地上,你就好比在跨域雷区,所以要重视细节,而且通过类比思考战略时一定要小心。实际上,我作为投资人在听演讲时,我所想到的细节是创业者是否被他们自己的类比所迷惑而没有想清楚一些例外的情况。

Slide08.jpg

背景

建议

在第三个例子中,我们将 Altavista 和它的搜索算法与 Google 和它的搜索算法 PageRank 进行了对比。PageRank 更多的用到了网络:搜索结果不仅仅依赖词条的出现次数,而是充分利用整体网络页面。 当用类比写演讲稿的时候,将你的业务与其他有价值的公司一起是表现你业务价值的信号。我们的基本论点是网络将带来收入。为了证明这一点,我们展示网络给 eBay、Paypal 和 Google 带来了收入,而这 3 家公司是所有人都想投资的。
Slide09.jpg

背景

建议

最后,我们把 Monster、LexisNexis 与 LinkedIn 进行了对比,因为我们希望表现 LinkedIn 能为所有与专业人才搜索相关的应用增值。例如招聘(以 Monster 为代表)和服务目录(以 LexisNexis 为代表)。

LinkedIn 到底能带来怎样的价值?我们提到 Monster、LexisNexis 以及其他信息服务提供商,指出“在以上 3 张幻灯片的例子中,就像网络放大 eBay、Paypal 的价值一样,这个价值放大乘数也能应用到 LinkedIn 上”。

LinkedIn 能够创造一个联网的简历文档(简历 2.0)来取代传统的招聘启事和私人简历。当你在 LinkedIn 上招人的时候,你是通过网络而不是简历数据库来寻找人才。我们同时了解网络能提高信息声誉系统,让他们能找到最合适的数据。

现在,网络支撑着很多消费互联网公司的信息声誉系统,包括 LinkedIn、Facebook 和 Twitter。

如果某人反对并挑战类比中的某些元素,不要让自己陷入这种来回辩论之中。类比只是一个概念框架,并不能保证 100% 精确。

但是,如此多的创业者在演讲当中使用类比法,导致一些投资人都有视觉疲劳了。如果你有一个好的类比对象,使用它。但如果你没有,就不要为了类比而类比。用一个不恰当的类比还不如不使用类比法。

Slide10.jpg

背景

建议

在这里,我们提醒投资人,投资决策到底 取决于他们是否认同网络将带来巨大的价值。

尽管我们知道我们会赚钱,我们认为投资人不应该考虑我们当前的收入数字。而是应该想想我们搭建起来的网络,因为这才是最终要成功的。我们将 A 轮融到的资金用于搭建网络,所以我们需要投资同意这一点:网络比收入更重要。

因为我们的投资主题最终是难以证明的,所以幻灯片 5-9 实际上是我们论证中最有力的部分。

任何一个不错的主意都会受到合理的质疑。你必须逆势而且恰当(contrarian and right[2]),才能实现真正的成功。

在 LinkedIn 的 A 轮融资中,我们的演讲是建立在网络的重要性之上的,一个典型的反对意见就是网络还很小的时候,对于第一批用户来说,是没有什么价值的,那它凭什么能壮大?对于前 50 万左右的用户,这个网络的价值可能为 0。我知道一些网络通过好奇心和病毒传播的制度设计使得用户数逐渐增长到百万级别,过了这个量级网络的价值就体现出来了。

在 B 轮融资中,Greylock 的赌注就是 LinkedIn 在改变招聘行业上有良好的前景,同时如果我们建立了一个广泛的专业平台,我们就有更多的想象空间。Greylock 以大约 0.6 美元一股的价格投资 LinkedIn。你再看看我们现在的公开股价,你就看到风险投资中“逆势而且恰当”的案例了。

Slide11.jpg
Slide12.jpg

背景

建议

在第 10 和 11 页,我们将 A 轮融资时的承诺与实际的经营成果进行了对比。超出 A 轮预期的业绩是我们执行力的强有力证据。

LinkedIn 的 B 轮融资计划只是一个概念,因为当时我们的经营数据并不能给人留下深刻的印象。当时,Friendster 拥有千万级用户,Myspace 拥有 250 万用户。而我们当时还在为 100 万用户而奋斗,没有任何收入。

你的投资主题可以是概念型的,也可以是数据型的。你的演讲是哪一种?

在一个数据型的演讲里,你用数据做导向是因为你要强调公司已经做到了多好的数据。因此,投资人就会根据数据进行企业估值。当 LinkedIn 上市时,我们的公开募股资料就是一个数据型的演讲稿。我们向投资者展示了多年的数据跟踪记录。

如果是一个概念型的演讲稿,里面可以有数据,但这些数据是用于支撑一个没有完全实现的概念。概念型演讲展示未来的愿景以及你实现这个愿景的路径,因此投资人希望能从中分一杯羹。所以概念型演讲更依赖于一个未来的数据承诺,而不是现有的数据。当你在做一个概念型演讲时,类比就更加重要。

(7个打分, 平均:4.57 / 5)

IP

好久不见了,弯曲评论。首席表示他很思念我,并且当头棒喝让我写点文章。哎,首席,并非我不想写,而是心有余力不足,该吐的吐了,该吃的还没消化,我一直认为好文章和好书,都是人生前进路上的排泄物。为何叫做排泄物?因为只有痛痛快快排泄出来的东西,才是精华,如果一个作者在写作的时候,是刹不住的文如泉涌,那出来的东西多半是精品,而不是那种为了排泄而强行排泄。前期排泄了一次,算是一个命题排泄,质量不咋地,各位将就享用并评论,后续会有新文出来。多谢!

 

很久之前,我记得那大概是在2005年,听说过国外一家初创公司做了一种以太网口的硬盘,当然硬盘本身不是他们做的,他们只是在硬盘上加上一个转接板,专业说法叫做Dongle,实现基于以太网的SCSI协议传输,至于协议是否使用的就是iSCSI无从而知,对其具体细节也很不了解。当时存储技术在国内还没有怎么得到普及,所以感觉这种东西非常新鲜,竟然可以这么玩!当然,这东西最后终究没成气候,逐渐淡出了业界。那时候,ATAoE,SCSIoE这种类似协议也一直有人在做,其目的就是抛弃TCPIP这种厚重的传输协议而转为为一种轻量级的适配到以太网的协议。但是目前来看,这类协议最终也没得到推广。

 

8年过去了,这8年里发生了很多事情。首先,企业级存储系统在国内得到了铺天盖地的应用,从一开始曲高和寡到现在的遍地开花,各厂商的企业级存储系统产品在这期间至少经历了4次升级换代,高端产品则经历了2次。其次,在业务层面,主机虚拟化的崛起,以及基于虚拟化之上的云计算架构的崛起,以及互联网后端架构的变迁,海量存储和大数据分析挖掘系统的广泛应用,这三大变革性事件对很多存储技术、产品、厂商及生态产生了重大影响。再次,底层技术的革新,固态存储技术崛起,2012年应该算是一个固态元年。业务和底层技术的变革,驱动着企业级存储做出一轮又一轮的变化,一开始是内部架构的变化,比如Scale-Up到Scale-Out,然后就是访问协议的变化,除了块和文件,对象接口越来越被广泛使用,再就是数据管理上的变化,企业级存储其实对固态存储介质可谓是爱恨交织,明知道这小东西一定会颠覆自己苦心建立的基于机械盘的生态系统,但又不能迎合潮流,出现了各种数据分层分级方案和技术,以及所谓全固态存储系统。如果说在这8年里的前4年,企业级存储算是慢慢悠悠的自我欣赏的发展,那么后4年基本是在小步快跑了,一下子爆发的众多变化,都发生在后4年里,企业级存储显得应接不暇,不知所措,云计算、大数据、固态存储、开源、软件定义,各方围剿,使得商用企业存储好像找不到出路,各个厂商绞尽脑汁规划下一代产品到底应该是个什么样子,以及整体战略需要怎么调整。

 

就在2年前,国内某存储厂商为应对海量低成本存储场景,设计了一套与2005年时候国外那个厂商类似的方案,也就是在每块磁盘驱动器上前置一个Dongle,其基于ARM处理器,这个Dongle相当于一个Mini Storage Controller,功能方面,其在硬件层后端通过集成的SAS/SATA控制器访问并管理这块盘,前端则通过以太网口来传输封装之后的访问协议比如Object对象访问协议,核心软件层是一个精简的Linux内核,包含SAS/SATA Host驱动、以太网设备驱动、块设备驱动、卷管理层、对象/文件管理层、对象访问协议、TCPIP协议层以及管理监控Agent等。也就是说,将一块传统的以Block形式访问的磁盘通过加一个转接板,变为了一块以对象Object形式访问的磁盘,如果向其软件层加入更多协议,那么还可以变为iSCSI Target,NFS/CIFS Export,当然一切实际上都受限于ARM的性能。每块对象盘连接到以太网上,再通过一个或者多个冗余/AA的总控服务器来管理这些磁盘,并通过这个总控服务器集群向外提供空间和服务。

 

也就在最近几天,希捷与这家存储厂商联合推出了被命名为Kinetic的硬盘,宣称其直接提供对象访问接口,并向应用提供API以调用进行数据访问和监控管理。这个产品相当于把之前的转接板去掉,把核心软件直接跑在硬盘背面的控制芯片里。处理芯片的一般架构是一个或者多个ARM/MIPS core与一堆外围电路比如XOR、ECC/CRC、加密、压缩、PHY等组成,而ARM/MIPS Core平时不参与数据的传输,只是控制数据的传输,否则会由于为数过多的内存拷贝而性能根本达不到要求,所以一般来讲一款处理芯片中的通用CPU模块,绝大多数时间负载并不高,这也就为在处理芯片中集成更多的软件功能提供了技术空间。但是别指望这种低功耗CPU能胜任事务级在线处理,跑跑一般的数据收发,简单的协议处理还是可以的,也别指望其能胜任高IOPS的场景,每一个IO处理耗费的CPU资源是不容小觑的,包括中断、协议处理、内存拷贝等在内的流程对CPU周期耗费很大。但是低负载、以带宽吞吐量大块连续IO为主的场景下,这类处理器能够很好的胜任,尤其是在只带一块磁盘的情况下,那就更是小菜一碟了。所以这种产品的基因决定了它的应用场景,也就是比如冷数据存储场景,或者备份等海量低成本存储场景。

 

综上,我们暂且简称这种硬盘为“IP硬盘”或者“对象硬盘”。其与传统的存储架构本质区别在于,传统存储控制器属于集中式控制器,用一台或者多台集中式的高性能控制器,通过SAS/SATA适配器接入为数有限的磁盘,最小的比如Raid卡,比如Adaptec公司最新的产品可直连24盘或者通过扩展柜连接256盘,最大的比如高端商用企业存储,可以管理多达3000多块盘,前端终结了SAS协议,转为使用FC或者iSCSI、NAS或者对象等协议,通过集中的单一的访问点来访问所有磁盘经过虚拟之后的空间。而Kinetic的架构则属于分布式微型控制器,有多少磁盘就有多少个访问点。说到这里我们就要仔细的去分析一下,这种新架构带来的优点和挑战在哪里。毋庸置疑,其优点是支持大规模并行访问,因为访问点是分布式的,有多少磁盘就有多少访问点,那么应用或者客户端程序可以直接并行的访问所有连接到以太网上的磁盘,体系效率较高。当然,其代价就是访问节点的管理上,需要被软件定义。对于集中式的磁盘控制器,对磁盘的管理,比如监控、容错、性能优化、空间管理等,都有集中控制负责,上层不需要关心,而新架构下,直接暴露了底层的磁盘,那么这些逻辑就需要被挪到上层软件层中去执行,也就是所谓软件定义,那就需要用户具有一定的技术开发能力去驾驭这个新架构,或者由厂商做这一层的开发,但是相对于在外部设备里开发这一层来讲,在用户的OS里做这个管理层,其主要难度在于兼容性,用户的OS千变万化,环境千变万化,兼容性很难保证。所以这类产品应用到互联网后端的可能性较大,一般企业会吃不消对其日常维护的开销。那么再看一下互联网企业,假设,如果依然利用现有架构,比如1U通用服务器,加一个SAS/SATA Raid/HBA适配器,接入12/16/24盘,然后在服务器上进行空间管理、协议转换,底层Raid控制器实现数据的小范围冗余容错及性能优化,在所有服务器上运行分布式文件系统来执行数据的大范围容错和均衡,这样做的好处是对上层来讲复杂度降低。同样是1U服务器,如果访问Kinetic架构,SAS/SATA Raid/HBA不需要了,直接通过以太网,那么原本由SAS Raid卡做的工作,就需要被挪到软件里去做,需要用户自己或者厂商开发一层逻辑,而且这层逻辑要么是分布式部署的,要么是非对称集中式部署在一个带外控制管理节点上的,这种做法思想基本上就是将磁盘进行非对称带外集群化,供上层的服务器集群访问。如果使用1Gb以太网连接每块磁盘,其带宽相对目前主流的6Gb SAS/SATA来讲会降低,时延也会增加。

 

结论,不管是对于互联网企业还是传统企业,一个集中控制设备或者软件层都是需要的。Kinetic架构的优势在于,降低了访问粒度,提升了大范围内的访问并行度,其劣势在于,性能域扩大,管理域也随之扩大,故障域也随之增大,传统1Gb以太网带宽和响应速度有限,对于冷数据这类场景,传统架构在性能、成本、管理上是否已经真的无法满足需求?是否有必要去这样折腾,还是个需要考虑的问题。

 

(4个打分, 平均:4.00 / 5)

科技一周~CPU与牙膏

科技一周~CPU与牙膏

2014/02/09 & 2014/02/16

在慵懒的午后,读书品茶写作,或也算一种超脱世俗的体验,外界虽彷徨而纷扰,又怎抵孑然孤心之深邃?时间与思绪,重叠在阳光的暖流里,缓缓而行,当那最后一滴茶香在身旁散尽的时候,竟致人一种莫名的感觉,像已轮转了三生三世,神思犹在,蓦然花开。我振奋了下精神,满血复活,把清新的文字换成了精简的代码,重新“杀入”到现实的程序世界。不错,硅谷就是这么一个地方:宁静致远之地,与科技纷飞的战场唯一幕之隔。

要说,这两周的科技新闻,得从微软选帅开始。

  • 微软新任CEO,选择了印度裔的Satya Nadella,并非是另一个重量级的华裔EVP,陆奇。这本不是什么大不了的事儿,但却在美国的华裔群体里成了热点话题。话题大都在分析“为什么印裔的成就高于华裔”。怎么说呢,其实这个话题本身就是个很伪的伪命题,“成就”一词,用于单一个体,就已经非常难以量化对比,更何况用之于两大族裔。与其讨论为什么微软选择印裔CEO,不如讨论“为神马微软要选新CEO?SB,为神马不干了?啤酒盖子为神马不复辟?”。若非要我评论印裔与华裔,只送三个字:“莫攀比”。
  • 管它微软CEO是谁,Google可是马不停蹄地推出了自己的新产品与新服务。上周,Google先是放出Chromecast SDK,正式拉开Chrome OS App开发的大幕,继而又推出企业级视频会议的系统,Chromebox,软件基于Google Hangouts,硬件基于Intel Core i7[1]。Chromebox的必杀之技,在于其$999的售价,与Cisco动则数万美金的视频会议系统相比,堪称低廉至极。
  • CPU设计业里的典范厂商,ARM,发布新财报[2],股价随之猛跌了一下。Q4季度,ARM公司从29亿枚ARM处理器芯片里,收取了$130.4M的IP的佣金(Royalty)。平均一枚处理器,只收取4.5美分!知识产权的价格之低,恐怕出乎很多人的意料吧。倘若以佣金占处理器售价的0.5%~1%来算,一枚集成了上亿晶体管的ARM CPU,平均售价则只有可怜的$4.5~$9。如此价格,大致相当于一盒宝洁公司的佳洁士牙膏[3]!嘿嘿,同仁们,再不要因为什么所谓“高”科技,而沾沾自喜了。
  • 2月6日,好奇号火星探测器,成功穿越火星上的一座小沙丘,Dingo Gap!好奇号在Twitter上发布了一条信息:I’m over the moon that I’m over the dune! I successfully crossed the “Dingo Gap” sand dune on Mars[4]。在火星上穿越沙地,是件极其艰难的事情。NASA上次发射的“勇气号”(Spirit)火星探测器,就是被陷在“特洛伊”沙地里,虽经8个多月的营救,犹未成功,永远地失去了活力。
  • 本周,美国第一大有线电视运营商,Comcast,宣布将以$450亿美元收购美国第二大有线电视运营商,时代华纳(Time Warner Cable)。Comcast此举,也从侧面印证了“Apple TV正在与时代华纳进行电视内容谈判”的传闻。鉴于Apple与Comcast的恶劣关系,若此番收购成功,Comcast无疑会阻断Apple TV的内容拓展之路。当然,更为可恶的是,Comcast将彻底垄断美国的有线电视和宽带网络市场,成为在线流媒体科技发展道路上的一块儿巨大绊脚石。
  • IBM不仅拉开了本年度裁员的序幕,还要出售其半导体制造业务。据闻,已有中国厂商询价。无论如何,这都是中国芯片产业的大好机会。IBM现有2条晶圆线,其中位于纽约的晶圆线是技术最为先进的22nm工艺,而目前中芯国际的量产线只有45nm。如果中国企业能把这条线吃进来,绝对是物美价廉的生意。中芯如果收购之,可以增强自己芯片代工的世界地位;如果联想、紫光、或华为能收购过来,则可以成为整合元件厂商(IDM),从而具备了与三星集团一争长短的实力。

本周科普内容是,ARM CPU的商业模式。ARM作为现代移动处理器设计产业里的标杆式企业,其盈利模式也与传统芯片设计厂商,大相径庭。在最初的芯片产业里,几乎没有“纯设计型”企业,每一个芯片公司都兼顾设计和生产两个方面。后来,随着晶圆线的成本高企,单一企业,在产量不大的前提下,很难维持晶圆线的生产。于是产生了台积电(TSMC)、联电(UMC)这一类纯代工模式的晶圆厂。随之而来的是,芯片产业脱胎换骨:大批无晶圆线的纯设计公司(Fabless),就此诞生,如高通、博通、Nvidia、Marvell、联发科。这种纯芯片设计公司,因其轻资产模式,而流行于近二三十年。

然而,“轻”也是相对的。纯芯片设计公司,相对于拥有晶圆线的芯片公司(如Intel),虽可谓“轻量快速”,但随着半导体工艺的深入发展与消费类电子的惨烈竞价,这些纯芯片设计公司的成本也越来越“重”,开发新型芯片的速度也越来越“慢”。举例来说,费用高:使用台积电最新28nm工艺的初次流片费用都在数百万美元;芯片复杂:每一个芯片里面,都包含了几十个功能模块,如CPU、GPU、Video,一个公司不可能全部自行设计这些功能模块。

于是类似于ARM这样的纯IP(Intellectual Property)设计公司诞生了。一个IP,就是一个完备的功能模块,有非常标准的输入输出接口,可以比较容易地被集成进一个芯片里去。ARM公司所提供的IP,就是被广泛应用于智能设备中的ARM CPU。一家芯片设计公司,可以从ARM公司获得IP授权,快速将其集成进自己的芯片里,再配以不同的其它IP,形成一个功能全备的系统级芯片(SOC,System On Chip),交付下游设备公司使用。

在这一商业流程里,ARM公司根本不需要大规模流片(Tape-out),它只要专于提供“软”IP即可。而那些采用了ARM CPU的芯片公司,一般要付给ARM两项费用:授权费(Upfront License Fee)、佣金(Royalty)。授权费是一次性的,从数十万到几百万美元,依据所使用之IP而不等;佣金则是一种提成性费用,芯片公司每销售一枚包含ARM IP的芯片,都要给ARM交佣金,佣金的比例约占一枚芯片价格的0.5%~2%。

ARM这种“超轻”量级的商业模式,促进了RISC CPU的蓬勃发展,使得智能设备公司摆脱了Intel对CPU的垄断,得以为消费者提供极具价格竞争力的产品。如果要给ARM公司做个类比,我倒是愿意把它形容为“芯片产业里的Google”,这固然因为ARM CPU的无处不在,也因为它对整个产业所带来的颠覆。(我虽在前文里,把CPU与牙膏做类比调侃,但内心实则敬佩。)

[1]. Robert Hof, Google launches $999 Meeting-room-in-a-box, http://www.forbes.com/sites/roberthof/2014/02/06/google-launches-999-meeting-room-in-a-box/ , Feb 2014.

[2]. ARM earning report, http://phx.corporate-ir.net/External.File?item=UGFyZW50SUQ9MjE4ODI3fENoaWxkSUQ9LTF8VHlwZT0z&t=1 , Feb 2014.

[3]. Amazon Crest toothpaste,

http://www.amazon.com/Crest-Pro-Health-Protection-Invigorating-Toothpaste/dp/B004V2MYOI/ref=pd_sim_hpc_7 , Feb 2014.

[4]. Mars Curiosity on Twitter, https://twitter.com/MarsCuriosity/status/431606450037592064 , Feb 2014.

图2. [4].

图3. http://www.xbitlabs.com/images/news/2012-10/wdc_semiconductor_wafer_1.jpg

(3个打分, 平均:5.00 / 5)

SIEM对安全Vendor市场的挤压-Splunk, Big Data and the Future of Security

(没有打分)

无线艾诺威(AeroHive)开启NYSE上市节奏

总部位于硅谷Sunnyvale的无线控制器公司艾诺威(AeroHive)近日正式开启在NYSE的上市节奏,代号暂定为HIVE。 并公开了S-1细节!

Aerohive在2006年由前NetScreen/Juniper华人员工刘长明创办,并在北极光创投(老大是邓锋,NetScreen的创办人,现北极光创投老大)的大力支持下,经过接近8年的奋斗, 成长为一个优秀的公司。 其现任CEO David Flynn是当年NetScreen的VP Marketing。Aerohive的许多骨干工程师也都是从NetScreen/Juniper出来加入的。

刘长明之前是NetScreen 网络组的负责人,主要是负责ScreenOS的Routing和HA部分。是这个方面的主要负责人。

从S-1报表细节里,同学们可以看到现在Aerohive公司的大股东的股份比例。。。点击下图,可以阅读详细的公司S-1报表。目前,公司总共股票数目为35.9M。创办人刘长明目前有1.86M,占5.2%。 北极光创投目前是Aerohive最大股东,21.9%。

(4个打分, 平均:4.00 / 5)

加州理工 。 《机器学习与数据挖掘》

(没有打分)

科学院 。大数据

一年多来,通过组织中国大数据技术大会、CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课题研究以及与情报分析、互联网数据分析相关的应用开发实践,我谈谈自己的一些思考。

今天引导性讨论的内容可以包括三大块,包括:对大数据的再认识、引擎平台系统支撑下的大数据分析技术、建立大数据产学研生态环境的基础性问题思考。

1、关于大数据的再认识

大数据是一个宽泛的概念,见仁见智。关于大数据的概念,当前比较普遍使用的定义都与维基百科中的描述类似:“大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。而这类定义的一个明显的局限是仅仅从大数据的计算机处理视角给出的关于大数据的一个特点描述。

我们知道,对一门学科的认识,往往是从分类开始的。就像达尔文提出进化论,原始的动机就是将从全世界观察到的动物和植物进行划分,形成体系。在分类体系上进行提炼,最终形成了一个全新的世界观和认识论。我们现在所关注的网络大数据、金融大数据、科学大数据等相关领域的问题,正像欧洲文艺复兴开始的的时候那样,从不同领域观察现象,挖掘价值,而最终我们可能能够发现本质,形成全新的“数据认识论”,从而产生本质性的价值效应。

我个人认为,“大数据”更多的体现的是一个认知和思维,它与钱学森先生提倡的“大成智慧学”的要义非常接近。钱老将“大成智慧”翻译成“WisdominCyberspace”,强调“必集大成,才能得智慧”。大数据从内涵来看的四个V的特性,体现出来的是大量的“零金碎玉”,相互之间还有关联性和作用力,但是局部看都非常零散、价值不明显。所以有了数据,不等于就有价值、出智慧,出智慧的关键在“集”。大数据中包括的全部事实、经验、信息都是“集”的对象和内容。采集到的原始数据往往是些没有什么逻辑,不一定能直接用现在掌握的科学技术解释,需要集成融合各个侧面的数据,才能挖掘出前人未知的大价值。每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌。开展大数据研究和应用,因此,大数据不仅仅是一类资源、一类工具,而是一种战略、认知和文化,要大力推广和树立“数据方法论”、“数据价值观”。

当然,我们既要抬头看路,更要脚踏实地。因此,在大数据概念满天飞的时候,我们既要抓住时机,挖掘价值,还要思考本质,不在混乱的时候迷失方向!

从业界来看,当前大数据系统有三个明显的特点与我们2013年底发布的十大趋势相关!

【1】大数据的高效深度分析需要专用化的系统

在应用数据快速增长的背景下,为了降低成本获得更好的能效,大数据系统需要逐渐摆脱传统的通用技术体系,趋向专用化的架构和处理技术。这方面,国内百度、阿里巴巴和腾讯三大互联网巨头做出了尝试并取得了很好的效果。众所周知,百度的大数据典型应用是中文搜索,阿里巴巴的大数据典型应用是基于交易日志分析的数据服务,腾讯的大数据典型应用是图片数据存储和基于用户行为的广告实时推荐。百度去年底成立专门的大数据部门,旨在深度挖掘大数据的价值。阿里巴巴已将不同业务部门的大数据技术整合在一起为数据产品提供统一的服务。腾讯的数据平台部正在将全公司的数据纳入统一管理平台。阿里巴巴在技术上与开源社区结合得最为紧密;腾讯大数据目前正在向开源技术靠拢;百度在技术层面偏好自行研发,包括软硬件定制化方案也是最先投入实用。技术上,他们的共同之处是,不再依赖传统的IOE,而基于开源系统(如Hadoop等)开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统。

【2】大数据处理架构多样化模式并存

当前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以来逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马终结了这一神话,大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展。今后在非易失存储层面、网络通信层面、易失存储层面和计算框架层面还会出现更多、更好和更专用化的软件系统。

【3】实时计算逐步受到业界关注

Google于2010年推出了Dremel,引领业界向实时计算迈进。实时计算是针对MapReduce这种批量计算的性能问题提出的,可分为流式计算和交互式分析计算两种模式。在大数据背景下,流式计算源于服务器日志的实时采集,如Facebook开源的Scribe是分布式日志收集系统,ApacheFlume是类似的系统。ApacheKafka是高吞吐率的分布式消息系统,特点是高通量和容错。Storm是容错的分布式实时计算系统,可以可靠的处理流式数据并进行实时处理,单机性能可达到百万记录每秒。Storm可集成ApacheKafka作为其队列系统。作为批量计算的补充,交互式分析计算的目标是将PB级数据的处理时间缩短到秒级。ApacheDrill是开源的Dremel实现,虽已有应用但尚不成熟。由Cloudera主导的Impala也参照Dremel实现,同时还参考了MPP的设计思想,目前已经接近实用阶段。Hortonworks主导开发了TEZ/Stinger,TEZ是运行在YARN(Hadoop2.0的资源管理框架)上的DAG计算框架,而Stinger是下一代的Hive。2013年底,由Facebook开源的Presto分布式SQL查询引擎可对250PB以上的数据进行交互式分析,比Hive的性能高出10倍。类似的Shark是Spark上的SQL执行引擎,得益于Shark的列存储和Spark的内存处理等特性,Shark号称可以比Hive的性能提高100倍。

2、系统支撑下的大数据分析技术

【1】内容分析与深度学习

要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算。这其中一个核心问题是如何来对数据的进行有效表达、解释和学习,无论是对图像、声音还是文本数据。传统的研究也有很多数据表达的模型和方法,但通常都是较为简单或者浅层的模型,不能获得好的学习效果。大数据的出现提供了使用更加复杂的模型来更有效地学习数据表征、解释数据的机会,深度学习就是这样一个研究领域,它已经在计算机视觉、语音识别等应用取得了成功。在国际上,微软将RBM和DBN引入语音识别中,使得错误率相对减低30%;Google的深度学习系统(DistBelief)在获取数百万YouTube视频数据后,能够精准地识别出这些视频的关键元素猫。在国内,2011年科大讯飞首次将DNN技术运用到语音云平台,并提供给开发者使用,并在讯飞语音输入法和讯飞口讯等产品中得到应用。百度成立了IDL(深度学习研究院),专门研究深度学习算法,目前已有超过8项深度学习技术在百度产品上线。深度学习对百度影响深远,在语音识别、OCR识别、人脸识别、图像搜索等应用上取得了突出效果。此外,国内其它公司如搜狗、云知声等纷纷开始在产品中使用深度学习技术。

【2】知识计算

基于大数据的知识计算是大数据分析的基础。当前,基于开放网络大数据构建知识库是国内外工业界开发和学术界研究的一个热点。世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库DBpedia,YAGO,Omega,WikiTaxonomy。除此之外,一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台,如Evi公司的TrueKnowledge知识搜索平台美国官方政府网站Data.gov,Wolfram的知识计算平台wolframalpha,Google的知识图谱(Knowledgegraph),Facebook推出的类似的实体搜索服务graphsearch等。在国内,中文知识图谱的构建与知识计算也有大量的研究和开发工作。代表性工作有中科院计算所的基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统,中科院数学院陆汝钤院士提出的知件(Knowware),上海交通大学构建的中文知识图谱平台zhishi.me,百度推出的中文知识图谱搜索,搜狗推出的知立方平台,复旦大学GDM实验室推出的中文知识图谱展示平台等。

【3】在线社会计算

社会媒体计算是大数据分析的典型应用之一。以Facebook、Twitter、新浪微博等为代表的社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用,成为一类重要信息载体。正因如此,当前社会媒体计算无论在学术圈和工业界都备受重视,大家关注的问题包括有对社交网络的分析、网络信息传播的内在机理以及社会媒体中的信息检索与挖掘(包括用户搜索、用户关系挖掘、话题发现、情感分析等)。在这些面向社会媒体计算的研究中,面对的社交网络是一个异常庞大、关系异质、结构多尺度和动态演化的网络,通常有亿级的节点,几十亿条连边,对它的分析、建模和计算不仅需要提出适配这样的复杂网络的关系抽象、结构建模和演化计算方法,更关键的也是更基础的是需要支持这样大规模网络结构的图数据存储和管理结构,以及高性能的图计算系统结构和算法,这也催生了当前很多图数据库和图计算平台的产生(如neo4j,GraphLab等)

【4】可视化成为大数据分析的热点

大数据引领着新一波的技术革命,对大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要,决定着大数据应用的成败。越来越多的企业在直面纷繁的海量数据冲击时面露难色。一个原因是因为数据容量巨大,类型多样,数据分析工具面临性能瓶颈。另一原因在于,数据分析工具通常仅为IT部门熟练使用,缺少简单易用、让业务人员也能轻松上手实现自助自主分析即时获取商业洞察的工具。因此,数据可视化技术正逐步成为大数据时代的显学。对大数据进行分析以后,为了方便用户理解也需要有效的可视化技术,这其中交互式的展示和超大图的动态化展示值得重点关注。如果一个机构尝试迈向大数据模式,那么一定要有相当分量的数据可视化投入。

总结:系统支撑下的大数据分析技术,从学界的关注点以及业界的突破点来看,当前可以总结为四个特点:“深度学习提高精度”、“知识驱动提高深度”、“社会计算与仿社会计算促进认知”、“可视化与分析算法互为因果”。当然,数据分析技术解决的问题还是如何有效的挖掘和利用数据价值。

3、关于中国大数据生态系统的基础问题思考

【1】建立良性生态环境的目标

针对国家安全、社会经济等领域的数据化生存与竞争的需求,我们需要切实解决网络化数据社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高数据消费指数、数据安全指数,降低数据能耗指数等目标。我们认为,建立良性的大数据生态系统是有效应对大数据挑战关键问题,需要科技界、产业界以及政府部门在国家政策的引导下共同努力,通过转变认识、消除壁垒、建立平台,突破技术瓶颈等途径,建立可持续、和谐的大数据生态系统。

【2】评价先行,提出考量大数据生态的三大指数,包括数据消费指数、数据能效指数、数据安全指数。

1)数据消费指数:

数据消费指数是指使用或者消费的数据占产生的数据的比例,旨在衡量数据消费的能力。当前由大数据引发的新产品、新服务、新业态大量涌现,不断激发新的消费需求,成为日益活跃的消费热点。然而,数据消费指数受到多方面发展状态的制约,包括数据开放和互通程度、大数据分析技术、智能访问终端的普及、数据服务基础设施的建设、数据服务新兴产业的发展等等。当前大数据消费指数低,美国NSA声称只是扫描1.6%的全球网络流量(约29.21PB),分析其中0.025%的数据来支持其分析和决策。我国数据消费面临基础设施支撑能力有待提升、产品和服务创新能力弱、市场准入门槛高、行业壁垒严重、机制不适应等问题,亟需采取措施予以解决。

2)数据能效指数:

数据能效指数是指大数据处理中的价值能耗比例,是衡量大数据价值获取的绿色指数。当前面对大数据,通常采取基于数据中心的粗放式的分析处理和价值提炼方式,导致数据能效低下。一方面,由于缺乏适应大数据的计算模式,往往采取集中式全量处理方式,导致数据处理效率低,获取单位价值所需的数据规模非常庞大,形成了大数据价值密度低的现象;另一方面,为了适应大数据爆炸式的增长,数据中心存储系统的容量、扩展能力、传输瓶颈等方面面临巨大挑战,直接结果就是数据中心的能耗越来越大。有关调查显示在过去5年全球数据中心的能耗增长率是56%,我国对数据中心流量处理能力的需求增长更快,数据中心能耗的问题就更加突出。目前国内数据中心的PUE平均值基本都在2.5以上,与欧美地区的PUE(能源使用效率)普遍值1.8以下还存在着较大的差距。且目前其全球的数据中心50%是完全用自然冷却的,前十大数据中心的PUE都在1.2以下。因此数据能效指数是在大数据发展中必须面对的,关乎国家能源消耗的重要指数。

3)数据安全指数:

数据安全指数包括了数据从创建、传输、存储到分析的全生命周期的安全指标,旨在衡量数据安全、隐私保护等方面的能力。数据安全是一个囊括个人,企业和国家的全方位的大数据安全体系。从个人层面,大数据对于隐私将是一个重大挑战,哈佛大学近期的一项研究显示,只要知道一个人的年龄、性别和邮编,从公开的数据库中便可识别出该人87%的身份。对于企业,数据作为一种资产,其安全保护问题十分重要,随着大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制提出更高的要求。而在国家层面,来自外部的威胁在大数据时代显然比以往更加突出和危险。举世瞩目的“维基解密”和“棱镜”事件生动昭示着大数据的严酷挑战。“维基解密”几次泄露美国军事外交等机密,规模之大,影响之广,震惊全球。“棱镜”事件向全世界曝光出网络空间国家与个人,国家与国家之间的安全对抗。因此评估数据安全指数,有利于推动大数据安全体系的完善,提升国家、社会和个人的信息安全。

1.如何建立支撑数据密集型科学发现新范式的基础设施:这包括了建立一系列通用的工具,以支撑从数据采集、验证到管理、分析和长期保存等整个流程,支持跨工具、跨项目、跨领域的数据共享与整合,将是支持数据密集型科学发现的基础问题。

2.如何建立数据全生命周期的计算模型:研究以数据为中心的新型计算架构,将计算推送到数据从获取、存储、处理、交换到服务的全生命周期的各个部分,研究数据全生命周期中不同计算之间的关联、互动和共享机制,在提高数据消费能力的同时有效降低数据计算能耗,形成数据安全体系,这是大数据计算的关键问题。

3.如何完成数据资产化和形成数据资产流转体系:亟需建立数据资产化的基本标准,让不同机构、不同领域的数据形成规范化资产;建立数据资产访问、连接和共享机制,搭建数据资产交易平台,形成数据流转的层次化体系结构;研究数据资产的所有权、使用权以及价值评估体系,通过市场化模式保障数据资产流转的可行性。

(1个打分, 平均:4.00 / 5)

AVTEST

———-Chinese————–

http://www.antiy.com/press/av-test.html

全球顶级安全软件权威认证机构AV-TEST于德国当地时间11日公布了2013年反病毒年度大奖,包括移动平台和传统Windows平台在内共5个奖项。其中,安天成为首个获得AV-TEST年度奖项的中国安全厂商,其他4个奖项分别为罗马尼亚厂商Bitdefender(比特梵德)、芬兰厂商F-Secure和美国厂商Symantec(赛门铁克)获得。

据AV-TEST官方公布,此次是该机构首次设立移动平台奖项。中国安全厂商安天出品的AVL手机反病毒引擎凭借在2013年全部6次横向杀毒测试中取得的全年最高平均检出率的成绩,从而获得“移动设备最佳保护”(Best Protection)奖项。

随着移动通信技术的快速发展,加上”棱镜门”事件在全球引发的巨大震动,信息安全问题已成为全球焦点,安全厂商也普遍看好移动安全市场的前景,纷纷投入研发。AV-TEST也于2013年开始针对安卓平台进行反病毒产品测试,全球共有28家安全企业的手机反病毒产品参加了这项测试。根据AV-TEST官方提供的最终检测能力数据,移动设备防护排名前三名的分别为安天、赛门铁克和比特梵德。

德国独立测试机构AV-TEST被安全业界公认为世界顶级杀毒软件的权威测试平台,已经有15年的历史,以海量的病毒库检测、独立客观的检测过程和严格的标准著称。全球安全厂商定期将其反病毒产品测试交给AV-TEST进行,其调研和测试结果为各大厂商产品进步提供了有利的引导。自2011年起,AV-TEST设立了年度奖项,之前相关奖项始终为卡巴斯基、赛门铁克等欧美厂商包揽,此次可谓中国安全厂商在全球顶级安全测试业界实现了零的突破。

Get more: http://www.av-test.org/en/test-procedures/award/2013/

———-English————-

http://www.antiy.net/p/av-test/

The world’s top security software certification authority— AV-TEST has
announced on 11th February local time in Germany the winners of the
AV-TEST AWARD 2013 which includes 5 awards in mobile platforms and
traditional Windows platforms. AVL SDK for Mobile by Antiy Labs has
won the award of “Best Protection 2013″. The other four awards are
contested by Bitdefender, F-Secure and Symantec.

It is the first time that the AV-TEST award has been presented to an
anti-virus solution in mobile platforms. AVL SDK for Mobile won the
AV-TEST Award for Best Protection 2013 by right of its highest average
protection score in all the six certification procedures carried out
by AV-TEST in 2013.

With the rapid development of mobile communication and the great shock
caused by the Prism incident, information security has become a global
focus. AV-TEST has begun testing anti-virus products in Android
platforms from 2013. A total of 28 security companies in the world
have taken the test. According to the final protection scores
published on the official AV-TEST website, the top three products come
from Anity, Bitdefender and Symantec respectively.

With a history of 15 years and as an independent testing institute,
AV-TEST is recognized as the world’s top anti-virus software testing
authority and best known for its features in massive virus detection,
independent and objective testing procedures as well as strict
standards. Global security vendors regularly test their anti-virus
products in AV-TEST. The testing results provide favorable guidance
for the progress of security vendors.

Get more: http://www.av-test.org/en/test-procedures/award/2013/
—————–

(2个打分, 平均:5.00 / 5)