大数据从“小”做起——中小企业Big Data解决之道

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

本文是最新的拙作,希望能大家能提点意见^_^

 

任何一个时代或者模式的兴起,都离不开与之相关的Killer App,比如,C/S时代的SAP ERP,互联网 1.0 时代的门户,以及互联网 2.0时代的搜索和SNS等,那么在当今云计算这个时代有那些Killer App呢?当然首当其冲的肯定是以VMware 和Amazon EC2为代表的虚拟化和相关IaaS服务,除此之外,新近崛起的大数据绝对也是云计算的Killer App之一,并且不仅类似百度、阿里以及腾讯这样的互联网巨头有相关的应用需求,而且根据我个人平时与客户接触,发现有很多普通中小企业,特别是中型的互联网和物联网企业,在这方面的场景也有很多。本文将首先给大家介绍一下在我眼中的大数据,以及大数据的意义和特点,再给大家聊聊大数据的常见处理流程,之后将会和大家分享一下我是如何帮助一些中小企业实施大数据相关的解决方案,也就是大数据如何从“小”做起。

什么是大数据?

过去计算机产生的数据,较简单,基本上都是一笔笔事务,总量虽大,但是都是整体增长幅度都还是可控的,比如传统的金融企业,经常使用几台大型机就管理其所有的业务数据,而最近几年,由于以平板、智能手机和传感器为代表的智能设备越来越多,同时这些设备的生成的数据更是远远地超过我们的想象。据美国著名咨询公司IDC的统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将是现在的44倍。据另外一份数据显示,全球 90% 的数据都是在过去两年中生成的,并且每年以50%的速度进行增长,每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络产生上PB级别的数据;每个月,全球网友发布了 10多 亿条 Twitter 信息和300多 亿条 Facebook 信息。那么这些大数据的存在有什么价值和意义呢?

大数据的意义

我个人和一些朋友一直觉得大数据就好比一口油井,因为里面蕴含着非常丰富的价值,如果企业能有效利用其内部存储的海量数据,那么将会改善其自身的产品和服务,从而提升客户和受众的体验,从而在大数据时代获取竞争优势,并且随着本身分析和挖掘技术不断地提升,可以在之前的基础上提供新的决策模式,从而支持管理者进行快速和精确地决策,这样能够超越对手,抢占市场先机,独领风骚。

下面通过几个行业来和大家举例讲解一下大数据有那些意义和作用?

互联网企业

我们有一些客户,他们主要是做网络舆情或者网络广告,他们明天都会处理和收集TB级别日志或者网页,结构化和非结构化都有,他们就是通过分析这些数据来给其客户提供价值,比如分析一下一个男性护肤品广告是在世界杯期间投放好,还是在亚洲杯那段时间播出好?还有,在电子商务方面,国外eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,并且通过这些分析促进eBay自身的业务创新和利润增长。

智能电网

我们有一个合作伙伴,他们是做智能电网相关的解决方案。对那些电网而言,如果无法准确预估实际电力的使用情况,将会使电网要求电厂发出过量的电力,虽然这些过量电力可以通过某种模式进行保存,但是大量的电力浪费已不可避免。而通过他们智能电网的解决方案,每隔一刻钟会采集一个省几千万用户的用电数据,之后他们会根据这些数据来精确分析用户的用电模型,最后通过这个用电模型来优化电力生产,从而有效地减少电力资源的浪费。

车联网

在车联网方面,我们也有一个客户,他们在一个城市有几十万台基于Android的终端,而这些终端会每隔一段时间会发送具体位置的GPS消息给后端的数据集群,接着这些集群会分析一下这些海量的GPS信息,分析出那些路段在什么时候比较堵,之后将这些非常有价值的信息不断地推送给客户,从而帮助用户减少在路上所消耗的时间。

医疗行业

在这个方面,大数据的用例有很多。首先,通过分析大量的病例信息,将有效地帮助医生治病;其次,假设在一个病人身体的多个节点加入探针设备,而且每个探针每天会采集GB级别关于人体细胞和血液运行状态的数据,之后计算集群可以根据这些数据来来进行分析,这样能更精确地判断病因,从而让医生对病人进行更具针对性地治疗。

机器学习

在这方面,最出名的例子莫过于最近很火的Siri,它后台有一个庞大的HBase集群来对类似语言这样的文本数据进行分析和管理,从而使Siri变成一位越来越老练的个人助手,为iPhone 4S的用户提供了日期提醒、天气预报和饭店建议等服务。除此之外,还有IBM的Watson,它通过一个基于Hadoop UIMA框架的集群来挖掘海量的文本信息来实现一定程度的人工智能,并在美国著名知识问答节目Jeopardy中战胜多位出色的人类选手。

国家安全

这方面最出名的例子,莫过于美国的联邦情报局(CIA)。在过去10年中,他们通过无人侦察机收集了大量阿富汗那边地理相关的视频资料,之后通过分析这些海量视频资料,来对极具危害性的恐怖组织团伙进行定位。

大数据的特点

大数据,不仅有“大”这个特点,除此之外,它还有很多其他特色,在这方面,业界各个厂商都有自己独特的见解,但是总体而言,我觉得可以用“4V+1C”来概括,“4V+1C分别代表了Variety(多样化)、Volume(海量)、Velocity(快速)、Vitality(灵活)以及Complexity(复杂)这五个单词。

Variety(多样化)

大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和以视频和语音信息为代表的非结构化等多类数据,并且它们处理和分析方式区别很大。

Volume(海量)

通过各种智能设备产生了大量的数据,PB级别可谓是常态,我接触的一些客户每天量都在几十GB,几百GB左右,我估计国内大型互联网企业的每天数据量已经接近TB级别。

Velocity(快速)

要求快速处理,因为有些数据存在时效性,比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。

Vitality(灵活)

因为在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应。

Complexity(复杂)

虽然传统的BI已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜了,同时也需要根据不同的业务场景,采取不同处理方式和工具。

大数据的常见处理流程

前面已经跟大家讲了处理大数据的必要性和特点,那么接着将谈到如何处理大数据,特别是常见的流程。具体的大数据处理方法其实有很多,但是根据长时间的实践,我总结了一个基本的大数据处理流程(图1),并且这个流程应该能够对大家理顺大数据的处理有所帮助。

clip_image002

图1. 大数据的常见处理流程

整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析以及挖掘

采集

利用多个的数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在采集部分,主要特点和挑战方面是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如著名用于购买火车票的12306站点和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑,并且如何在这些数据库之间进行负载均衡和分片的确是需要深入地思考和设计。

导入/预处理

虽然有采集端本身会有很多数据库,但是如果要对这些海量数据进行有效地分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作,也有一些用户会在导入时候使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

在特点和挑战方面,主要是导入数据量大,每秒导入量经常达到百兆,甚至GB级别。

统计/分析

统计与分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等,而一些批处理或者基于半结构化的需求可以使用Hadoop。

统计与分析这部分,主要特点和挑战方面是分析涉及的数据量大,其对系统资源,特别是I/O会有极大地占用。

挖掘

与前面统计和分析不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,这样实现一些高级别数据分析的需求,比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。

在特点和挑战方面,主要是挖掘的算法复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法库以单线程为主。

如何从“小”做起?

由于我平时与中小企业的接触非常频繁,虽然技术方案与实际的问题相关,很难在一篇文章当中详尽地道来。除了上面那个基本处理流程之外,我下面会将一些基本的从“小”做起的思路给大家阐述一下:

  1. 认识自己的不足,主要是在技术、人力和财力等方面是不仅无法与Google和Amazon这样国外巨头比肩,而且与国内三大互联网BAT(百度、阿里巴巴和腾讯)也是无法比肩的,所以需要深刻认识;
  2. 明确分析自己的需求,下面是几个常见的需求选项:
    1. 数据类型,是结构化,半结构化,还是非结构化为主;
    2. 数据大小,内部数据级别是TB级别、PB级别或者PB以上级别;
    3. 读写量级,比如每小时写入的数据达到GB级别,或者每天写入达到TB级别等;
    4. 读写比例,是写为主,还是以读为主;
    5. 并发数,大致的每秒并发数;
    6. 一致性,只接受强一致性,或者可以接受最终一致性和弱一致性;
    7. 延迟度,最高能容忍的延迟度是多少,是10毫秒,100毫秒,还是可以1秒
    8. 分析的复杂度,需不需要引入较复杂的数据挖掘算法等。
  3. 要灵活使用现有的工具,首先,推荐使用一些开源或者是可以承受的商业软件,虽然个人并不排斥自建,但是一定要有具体的商业价值,并且最好是在现有工具上的画龙点睛,而不是从头开始构建;其次,工具方面应与具体的场景相关,在不同的场景要使用不同的工具。
  4. 尽量不要走平台思路,应以具体的应用和场景为主,因为建一个平台有很多附加的成本和设计,比如,Amazon的云平台是通过至少五年时间构建而成。特别是项目的初期,不建议走平台这个方向,而是应脚踏实地以具体的商业场景为主。
  5. 找准切入点,最好是找到一个技术难度小,并且有一定的商业价值的场景来做大数据技术落地的试点,并不断地进行测试和迭代来验证,而不是一味求复杂,求大,这样比较容易说服企业管理层来进行长期地投入和支持;

最后,想和大家说一下,“罗马不是一天建成的”,无论是Google的用于大数据处理的基础设施,还是我们国内淘宝的“云梯”都是一步步通过不断积累和实践而成,所以我们这些中小企业应该贯彻“大处着眼、小处着手”的方针来持续地验证和推进。还有,我们人云科技将于今年上半年发布用于海量结构化数据处理的YunTable,由于其性能指标非常出色,并且已经有正式运行的大型集群,所以请各位朋友敬请期待。

(11个打分, 平均:4.82 / 5)

宝岛智能风暴 Computex2012三大手机猜想

一年一度的2012台北电脑展(Computex2012)即将在6月5日—9日在台北举行。作为全球第二、亚洲最大的国际电脑展,每年都会吸引全球各个国家上千个厂商参加。

虽然是一个以电脑为主的展会,但在移动互联网风起云涌的今天,手机产品、手机芯片、智能系统这些内容也越来越被厂商所重视,大量的最新技术和产品在此次展会上展出。

宝岛智能风暴Computex2012三大手机猜想
Computex2012三大手机猜想

在去年的台北电脑展上,我们见证了NVIDIA的Tegra3芯片产品的首次曝光,见证了革命性的华硕Padfone发布。2012年的台北电脑展即将开幕,在手机方面会有什么样精彩展内容呢?我们今天就来为大家进行台北电脑展前手机领域的三大猜想。

高通/NV/Intel移动芯片宝岛激战

台北电脑展,芯片厂商自然会在展会上有重要的作为。在以前,PC的芯片展会展出的主要内容。而随着移动终端的发展,各大厂商对于移动处理器的争夺也进入一个白热化的阶段。

高通作为目前最重要的手机芯片厂商,每年全球重要的电子产品展会都不会缺少它的身影。在4月25日,高通在中国正式发布了业内首批28纳米的骁龙S4高性能处理器。目前已经有搭载该芯片的产品陆续上市,可以预见骁龙S4处理器将成为高通这次展示的重点,同时我们也可以期待一下更多搭载骁龙S4双核或四核处理器新品的展示。

宝岛智能风暴Computex2012三大手机猜想
骁龙Snapdragon S4芯片

在去年的展会上,NVIDIA带来了他们的Tegra2芯片产品的同时,性能强劲的Tegra3芯片也正式亮相。强劲的性能以及让人惊讶的图形处理效果让所有的人眼前一亮。而在今年,Tegra3四核处理器产品已经上市,成为目前市售的唯一的四核手机产品。可以预见在今年的台北电脑展上,NVIDIA应该会展示更多Tegra3的终端产品,以及更多的相关应用和新功能。而根据路线图,下一代的WAYNE芯片是否会展示,成为我们所期待的。

宝岛智能风暴Computex2012三大手机猜想

Tegra 3是首个移动平台的四核方案
宝岛智能风暴Computex2012三大手机猜想

NVIDIA的产品线规划
上面的两个移动芯片厂商我们可能已经比较熟悉,已经涉足移动处理器市场的Intel其实也是我们非常值得期待和关注的厂商。在去年的台北电脑展上,Intel为我们展示了很多Atom芯片的平板设备。而就在今年的CES展会上,Intel联手联想发布了全球首款搭载Intel处理器的手机联想K800。主频1.6GHz的Atom Z2460处理器为我们描绘了Intel进军移动芯片市场给我们带来的美好前景。在台湾本土举行的这次展会Intel会不会与本土企业为我们带来更多的Intel手机产品?Intel自由的智能平台会有什么样新的发展,这也成为我们非常期待的内容。
宝岛智能风暴Computex2012三大手机猜想

搭载Atom Z2460处理器的联想K800

创新终端能否再掀高潮?

创新一直都是电子产品厂商能够生存发展的重要武器。在去年的台北电脑展上,我们看到了将手机、平板、笔记本功能融为一身的华硕Padfone的发布,这让我们也对今年的展会的创新终端充满了期待。

宝岛智能风暴Computex2012三大手机猜想(2)

华硕Padfone
宝岛智能风暴Computex2012三大手机猜想(2)
华硕Padfone

华硕Padfone的推出开了一个好头,这种理念的产品是否会被其他厂商所仿效呢?华硕是否会有和Padfoe概念类似的产品再次推出呢?拥有超出我们想象外型和功能的手机产品是否会在这次展会上展出?创新风暴是否会在今年的台北电脑展再掀高潮呢?这些都将成为我们最关注的内容。

智能系统应用期待惊喜

台湾是全球重要的电子产品出口地,也有众多的电子产品生产企业。我们熟悉的华硕、宏碁、HTC每年都会参加这场重要的展会。他们的产品是我们关注的重点,但其实大家不能忽视的一个内容就是智能平台会在这些厂商的产品中有什么样新的变化。

目前苹果iOS和谷歌Android成为最主要的智能系统,而Windows Phone平台也在快速发展。相比于苹果iOS和微软Windows Phone系统来说,谷歌Android智能系统无疑是最有可能给我们带来惊喜和变化的。

HTC对Android的深入开发为我们带来了Sense,成为目前最成功的Android个性体系。去年华硕的Padfone除了外形的概念外,也将Android手机系统与平板系统的界限打通,让不同设备之间系统也能有一个统一的变化。

宝岛智能风暴Computex2012三大手机猜想(3) 宝岛智能风暴Computex2012三大手机猜想(3)
HTC sense4.0界面
宝岛智能风暴Computex2012三大手机猜想(3)

宝岛智能风暴Computex2012三大手机猜想(3)

行货HTC One X已经全面本地化

在追求硬件提升的同时,参展厂商能够在系统应用方面给我们带来什么样的新的变化?基于硬件有什么新的功能应用推出,这无疑是我们最想看到的。

(6个打分, 平均:1.00 / 5)

YunTable1.0(beta)的产品介绍

经过最近一年的努力,我们YunTable已经从一个过去基于BigTable的小玩具发展成新一代的分布式数据库,并且能在秒级对十亿行的大表进行快速地分析,现在版本号也从0.9进化为1.0beta, 具体内容可以看一下下文,并且将于本周正式对外提供下载和教学文档,最后感谢大家长期的支持^_^

 

yuntable-logo

据美国著名咨询公司IDC的统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将是现在的44倍。据另外一份数据显示,全球 90% 的数据都是在过去两年中生成的,并且每年以50%的速度进行增长,每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络产生上PB级别的数据,所以说“大数据”时代已不可避免地到来了,并且这些大数据里面蕴含着丰富的价值,而我们人云科技团队从2010年起开发了针对海量结构化数据分析的名为“YunTable”的分布式数据库,最新的版本号为1.0beta,现正处于公开测试阶段,并将于2012年6月正式对外发布1.0正式版,而本文档将会给大家逐步介绍YunTable,包括它的基本功能、核心技术、分布式架构和路线图等。

 

大数据的处理流程

虽然具体的大数据处理方法其实有很多,并且也有各种不同的场景,但是为了帮助大家理顺大数据的处理,在对YunTable进行介绍之前,在这里给大家总结一下大数据处理的基本流程。

BigData Process

图1. 大数据的处理流程

如图1所示,整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析以及挖掘,下面将分别详细地介绍:

采集

利用多个的数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在采集部分,主要特点和挑战方面是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作。

导入/预处理

虽然有采集端本身会有很多数据库,但是如果要对这些海量数据进行有效地分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作,也有一些用户会在导入时候使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。在特点和挑战方面,主要是导入数据量大,每秒导入量经常达到百兆,甚至GB级别。

统计/分析

统计与分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等,而一些批处理或者基于半结构化的需求可以使用Hadoop。统计与分析这部分,主要特点和挑战方面是分析涉及的数据量大,其对系统资源,特别是I/O会有极大地占用。

挖掘

与前面统计和分析不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,这样实现一些高级别数据分析的需求,比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。在特点和挑战方面,主要是挖掘的算法复杂,并且计算涉及的数据量和计算量都很大。

 

产品简介

YunTable是在传统的分布式数据库的基础上发展而来的新一代分布式数据库,并吸纳了一些来自NoSQL的新技术其核心技术与著名的Oracle Exadata和SAP HANA类似。通过它能构建一个百台服务器级别的分布式集群来管理PB级别的海量结构化数据。 YunTable最大的特色就是快,它能极快地导入海量的数据,并极快地进行相关的查询、统计和分析;其次是TCO低,整体成本和类似性能的Oracle Exadata和SAP HANA相比低很多。

在大数据的处理流程方面,如图2所示,现阶段,YunTable专注于数据导入、统计和分析这两部分。

BigData Process2

图2. YunTable与大数据的处理流程

 

设计目标

在设计方面,主要是找准专注的点,具体有下面这四点:

1. 主要针对海量结构化数据,并为其做非常彻底的优化;

2. 优化导入数据的性能,以满足非常极限的数据导入要求,比如,每秒整个集群需要导入50多万行数据;

3. 对数据分析相关的SQL语句进行支持和优化,比如支持去重、求和,以及分类汇总等命令;

4. 利用好现有的硬件,无论是CPU、内存、SSD,还是硬盘,都根据它们的特性,发挥它们的性能优势,比如利用多核的优势,以及硬盘顺序读写性能优等特点。

 

功能特性

在功能特性方面,主要有下面这八点;

l 支持核心的SQL命令:包括Group By、Distinct和Count等;

l 支持百台级别服务器集群:构建耗时短;

l 提供PB级别的数据存储:压缩比平均在1/10左右;

l 提供秒级海量数据处理能力:能在几秒中对海量数据完成大多数SQL指令的执行;

l 每秒百万行级别的数据加载能力:能快速导入海量数据,并支持CSV格式的数据文件;

l 线性扩展:每添加一个节点能提供接近线性的性能提升;

l 数据安全性:采用多备份机制来确保数据的安全;

l 整体成本低:采用普通的X86服务器,无需昂贵的硬件技术;

 

三大核心技术

三大核心技术

图3. 三大核心技术

在上面大数据的处理流程那部分已经提到,对于统计和分析,最大挑战莫过于I/O方面。为了让YunTable更好地提升统计和分析相关的I/O性能,如图3所示,YunTable提供并行处理、行列混合存储和压缩这三个针对海量结构化数据处理和分析的必备利器,因为这样对分析命令而言,I/O处理会实现最优化,而且Oracle Exadata和SAP HANA的优秀性能都基于类似技术的,并能对热数据提供接近内存计算的性能,下面将分别介绍这三个技术:

1. 并行处理:就是将一个来自客户端的查询或请求分配到多个节点上进行并行处理,之后在客户端来接受来自多个节点的返回,并进行合并来产生最终的结果,在导入方面,也可以利用并行机制来加快数据的导入;

2. 行列混合存储:与常见的列式存储不同的是,YunTable会先以行为单位进行分组,之后再进行列式存储,这样做的好处是,在保持传统列式存储分析性能的同时,对部分涉及到行的命令也有一定的支持;

3. 压缩:虽然YunTable本身采用比较经典的压缩算法,但是在具体数据组织方面有一定的设计,使得整体压缩率达到1/10,甚至更高,并且压缩和解压缩的效率也很高。

 

整体架构

YunTable Arch

图4. 分布式架构

首先,如图4所示,从分布式架构角度而言,YunTable主要有Client端、Master节点和Region节点这三个组件组成:

l Client端,主要是用于发送命令,现在主要使用基于C的驱动,并将在4月提供基于Python的驱动;

l Master节点,主要用于管理这个集群,并且负责集群中异常事件的处理;

l Region节点,主要用于储存数据,并接受来自Client端的请求来对存储于其内数据的进行查询和分析。

接着,以一个Table为例来进一步介绍YunTable的分布式架构,当Client端向Master节点申请创建一个Table的时候,Master节点会为这个Table创建多个Tablet Group,一个Table的数据会按照一定的分片策略均匀分布到每个Tablet Group中,常用的分片策略为Hash算法。每个Tablet Group会包含多个数据完全一致的Tablet以用于备份,并且它们运行在不同的Region节点上,Tablet具体的数目和其设定的备份策略相关,一般备份数为3。在一个Tablet Group中,Tablet之间有主备份和副备份之分,也就是说,数据会首先写入到主备份,接着主备份会将数据异步发给第一个副备份,之后依次类推。

region arch

图5. Region节点的架构

最后,分析一下用于存储和分析数据的Region节点,如图5所示,每个Region会运行和存储多个Tablet,当数据写入的时候,数据会首先写到这个Tablet的WAL日志上,接着会写入至一个位于内存的数据结构Memstore中,WAL全称为“Write-Ahead Log”,主要用于暂存那些最新的数据更新请求,以避免当Tablet中的Memstore被意外关闭时所造成的数据丢失。接着,当Memstore存储的数据达到一定的阀值时,它会将数据整理一下,之后批量写入硬盘,写入格式为YFile。因为YFile本身是不可修改(Immutable)的,所以这样能有效地利用硬盘顺序读性能好的特性。最后,系统会清空WAL日志中那些已经写入的数据。

 

实际案例

在2012年4月初,YunTable在一家中型互联网企业进行了一场基于海量数据的实际业务场景的测试,具体的测试数据见表1。简单而言,根据这次测试结果,YunTable无论在导入速度,还是以去重统计和多维分类汇总为代表的分析性能都基本上达到了业界最领先的水平。还有,本次测试的每台x86服务器的配置是2颗4核Xeon CPU、64G内存和4块7200转SAS硬盘。
 

YunTable

集群规模

5台 x86服务器

导入数据速度

30万行每秒

集群数据量

34亿行

去重统计

20.6秒

多维分类汇总

52秒

表1. 测试结果

 

产品比较

下面表2主要是在结构化数据分析方面,根据用户的反馈,与几款现在比较流行的产品进行了比较:
 

YunTable

Infobright

GreenPlum

Oracle Exadata

性能

非常快

不错

非常快

支持的数据量

PB级别

TB级别

接近PB级别

接近PB级别

成本

企业版高

非常高

优势

性能优,成本低

兼容MySQL

性能不错

性能高

不足

属于初创阶段

稳定和扩展

非常贵

表2. 与竞争对手的比较(根据用户的反馈)

 

路线图

在今后一两年时间中,我们人云科技团队的主要目标还是在于不断地提升YunTable对海量结构化数据的分析能力,下面是今后两年初步的规划:

  1. 2012-6 :推出1.0版,对基于单表的SQL命令提供完整的支持,并提供Python驱动;
  2. 2012-7至2012-12:推出2.0版,主要是根据用户的需求,加入更复杂的数据分析和统计功能,并提升与Hadoop的整合或者内置对MapReduce的支持;
  3. 2013:推出2.1版,目标是增加用于数据挖掘的功能模块。

 

服务策略

现阶段的对客户的服务策略是“使用免费,服务收费”,用户现阶段可以免费下载和使用YunTable,同时为了帮助用户部署、使用和维护YunTable,我们人云科技团队提供了基于收费的各项服务和技术支持。

(8个打分, 平均:4.50 / 5)

车库咖啡网络现状及改造建议

受陈首席委托,本人于5月17日对车库咖啡的网络部署情况进行了实地考察,总结了一些目前存在的问题,并给出改造建议。水平所限,文中定有不妥之处,还望各位弯曲网友多给把关,集思广益得到最合理的解决方案。

网络现状

车库咖啡采用8线ADSL接入,速度均为下行2Mbps/上行512Kbps,服务商为北京联通。(据创始人介绍,除联通ADSL外,车库咖啡所在建筑无其他互联网接入服务可供选择。)线路由图中所示B点入户,在A点与B点各放置了4台ADSL Modem,再由位于同一位置的4台路由器做PPPoE/NAT,其中包括D-Link DI-7200企业级上网行为管理路由器(最大支持4路WAN接入,使用3路连接ADSL)2台、Cisco/Netgear家用级无线宽带路由器各1台。

车库咖啡营业面积大约800平米,分为会议室、书房、大厅三大功能区。为实现全面的Wi-Fi信号覆盖,4台路由器LAN口又连接了若干家用级无线宽带路由器,当做AP使用;在大厅中部分区域,采用了无线网桥的方式拓展信号。整个车库咖啡共有4个SSID供顾客使用,它们彼此独立,无法实现无线漫游等特性。

现存问题

经过调查分析,车库咖啡网络目前存在如下比较明显的问题:

  • 网络割裂:缺少核心交换设备的车库咖啡网络被分割成孤立的4个区域,接入不同SSID的用户无法实现高速数据传输;接入资源也未进行聚合及统一调度,导致带宽利用率失衡。例如考察当天下午(非高峰时间),接入Netgear产品提供Wi-Fi服务的用户数量一度超过拥有3条ADSL接入的D-Link DI-7200,前者的2M下行带宽已满,后者仍有很大余量。
  • 应用流控失控影响网络使用体验:D-Link DI-7200具有一定的应用控制能力,也配置了屏蔽P2P下载的策略,效果却不尽人意。在使用迅雷下载热门应用时,3条ADSL的上下行带宽很快饱和,影响到其他顾客的上网体验。多数在线视频服务也会对网络造成很大压力,例如打开优酷超清视频后,下行带宽很快从1M左右达到饱和。Cisco/Netgear的家用级设备则不具备任何应用识别及控制能力,且在提供Wi-Fi服务的同时要处理DHCP、NAT等业务,网络使用体验难以保证。
  • Wi-Fi接入体验欠佳:现有无线方案采用家用级产品部署,在顾客较多时效果欠佳,例如考察当晚金山公司在大厅做活动(目测来宾超过200人)时,几个接入点都会有拒绝连接的情况发生。即便侥幸连上Wi-Fi,网络也几乎不可访问。下图是连接后PING路由器内网口IP及百度时的延迟及抖动情况。
  • 不合理配置:个别AP启用了NAT,导致D-Link DI-7200上的MAC/IP绑定、ARP抗攻击、连接数控制及监控统计功能失效,对网络安全性及可管理性造成影响。

改造建议

综上所述,对车库咖啡网络提出如下改造建议:

  • 统一调度接入资源:将8条ADSL线路进行整合,提高带宽利用率。从保护原有投资角度考虑,可使用两台D-Link DI-7200各接4条ADSL。开启其中一台上的DHCP、MAC/IP绑定及ARP抗攻击服务。
  • 对应用进行识别、控制及分流:从车库咖啡“创新孵化器”的具体需求出发,结合日常顾客对互联网的使用习惯,针对应用设定不同的QoS及访问控制策略。同时可基于上述的双网关部署,实现关键应用及非关键应用分流。根据陈首席公布的认捐情况,可使用Panabit专业版实现此功能。
  • 集中交换:局域网需实现物理上的统一,保证性能及可管理性,同时划分不同VLAN给创业团队、VIP用户及普通顾客使用。为简化Wi-Fi方案的部署难度,交换机需支持PoE供电。根据陈首席公布的认捐情况,可使用盛科交换机实现此功能。
  • 部署企业级Wi-Fi解决方案:根据车库咖啡在Wi-Fi接入方面的复杂需求,需部署企业级Wi-Fi解决方案,以无线控制器+瘦AP的方式解决兼容性、可靠性及性能问题。建议开启多SSID特性,将VLAN划分策略延展至Wi-Fi接入层面。

关于车库咖啡(本节内容摘自百度百科)

车库咖啡于2011年4月开始营业,是一家以创业和投资为主题的咖啡厅,创业者只需每人每天点一杯咖啡就可以在这里享用一天的免费开放式办公环境。可以说,车库咖啡不仅是创业者的低成本办公场所,也是投资人的项目库。

车库咖啡的“常驻”创业团队大约有10个,并仍有新的团队不定期“入驻”。在过去半年时间内,车库咖啡已经促成12个创业团队获得天使投资。

车库咖啡的访客不仅有大量的创业者和投资人,还包括关注创新和创业的媒体记者。

(18个打分, 平均:3.83 / 5)

老周的招数—由360进入手机硬件行业带来的思考

原文我写在新浪博客上,提交弯曲的时间有点晚了,本来分一二三,现在合在一起了。第一次在弯曲发帖,呵呵,欢迎大家拍砖。

http://blog.sina.com.cn/s/blog_4172eadf01012w7i.html

老周的招数—由360进入手机硬件行业带来的思考(一)

上周五(五月八号)业内又发生了一件重要的事情,周鸿祎宣布360进军手机市场,360未来将以零硬件利润方式来攻占手机市场。最近一年来,小米,盛大,阿里,百度等,纷纷以各种方式涉足手机硬件。老周是互联网行业典型的大佬,出招一向凶狠毒辣,以往360免费杀毒,3Q大战,营销把握异常精准,均显示了老周的深谋远虑,可以说其运作水平国内鲜有人及。本人从事手机硬件行业,他的出招,很可能直接砸了我的饭碗,因而值得拆解一番。先把老周接受经济之声的采访引述如下:

http://www.ylmf.net/soft/news/observed/2012050734443.html

没读过的同学建议先看一下对老周的采访,应该说以上采访的信息量还不小。我们一一分解:
第一看点:老周为啥考虑了半年才出招:
雷军已经出招快1年了,老周还是等了这么久才出招,说明老周在这个事情上确实犹豫了很久。雷军做小米,当然是为了未来的相关应用APP做铺路,老周犹豫不决(百度阿里其实也迟迟未动)说明老周认为小米直接生产硬件的打法并非最为稳妥,推行效果依然达不到老周预期,推广边际成本依然较高(体量/速度不达预期)。这次老周祭出的打法是360特供手机,说白了就是终端厂开发,360整点关键应用上去并负责卖。也就是360不深度介入硬件开发,打法的关键在于售价策略(号称零利润)和渠道策略(尚不清楚),售价策略上应该会比小米还要狠,小米的两千多块钱还是有一些水分的,雷军估计还是想通过硬件利润摊销一些成本。360就可能真往死里砸了。
老周这样干,我觉得折射出了一个背景:
互联网企业直接介入手机硬件开发的风险依然很大,大部分互联网公司尚不太敢向小米一样全力投入硬件。亚马逊的套路不是谁都可以学会的。国内商业环境和美国很不相同,想在短时间内卖出大量终端并从终端软件上收回成本很难。
第二看点:360变成了第二个运营商:
通过特供手机这样一种类似运营商补贴的方式(手机厂商肯定得到360一定的补贴),老周希望尽快把量做上来,这种与手机厂商合作维持的关键,就是360能给终端厂商一些补贴赢利。 没有终端企业会自己杀血本拼价格,最终玩的自己无路可走的,只有额外的补贴money才能催发血拼精神。这种操作手法为互联网业界提供了一种新思路,或许也为手机硬件厂商也找到了一种新的盈利模式。以后或许手机厂商主要赢利就靠互联网公司应用分成也说不定(又一个手机吸费的套路?),如果把360看作是一个运营商(运营商靠语音服务赚钱,360靠杀毒赚钱,其实一个理),这样的运营商可有多着呢。
第三看点:360会选择什么样的厂商合作:

老周还是出招了,说明老周认为时机不能再等,毕竟360学不了google搞出个安卓,从OS层保护APP此路不通,再不为应用打造渠道,这个保命的渠道可能就没了。那现在的关键就是老周会选择什么样的厂商合作。从采访中得到信息,这个合作厂商应该有很多家。针对360应用,什么样的手机消费者才是360的价值用户?从老周访谈中看,他还不是很着急去发掘,他还是会先试试看,先走一个量,结合低成本策略,因而他选择的合作伙伴应该是在供应链上有较大成本优势的厂家,且具有一定的品牌和渠道能力,或许中兴,华为是不错的合作伙伴。(HTC,MOTO这样的相对高端品牌厂商愿意降价销售来迎合360的策略吗?值得思考)

这样的选择在手机产业链上会导致什么样的结果?拿到单子的厂商自然是强者越强,互联网公司的选择会造成手机硬件公司竞争态势的失衡吗

老周的招数—由360进入手机硬件行业带来的思考(二)

继续上面的议题,我们继续360介入手机硬件行业带来的思考. 今天老周微博中透露将会将高端智能机打到低端,高端机在几年后将不复存在;言下之意就是说360准备打高性价策略,主攻大众消费市场(这显然有别于小米玩的“发烧友”概念),中国人民大部分人钱包还是不够鼓,小米的两千多发烧不起,更多人愿意用1000~2000元之间的手机;晚上就有消息放出,360的一个合作伙伴就是牛逼忽忽的华为终端。
从微博消息中看,华为对与360的合作是响应可能是比较积极的。老周选择华为理由充足,但华为为什么要跟360玩呢?
第四看点:终端厂商面对360的态度
国内手机硬件厂商中,应该说龙蛇混杂,实力差距存在天壤之别,有的公司虽然号称每年出货量超千万,其实完全没有技术积累,纯粹依靠MTK的turnkey毒药维系,拼的是渠道能力。其中稍有实力的则转为品牌商,当然这里一个很重要的原因是国内市场上有许多IDH,能够支持弥补这些终端公司当前开发能力的不足。研发上较有实力的一线厂商则是中华酷联,当然这四个也存在很大的差异:中兴和华为是通信大厂,业务广泛,技术积累雄厚,市场风格彪悍,又有运营商关系积累,老大老二地位不可动摇,目前都是在向国际品牌的目标进军。联想有PC业的深厚积累,质量体系完备,消费电子品牌比中华树立的更早,早已具有国际运作眼光,在移动互联网的长远发展上当然不愿意居于人后。宇龙酷派虽然主营业务只有手机,但也深耕多年,力图在终端云服务上建立起自己的发展。
说白了,有点实力的国内厂商都想在移动互联网的大潮中淘一把流量服务利润的金。但苦于实力不济,均无法做到apple和amazon的地步;其中华为应该是决心最大的一个(可见华为海思要弯道超车),华为当前整个公司面临运营商市场饱和的困境,正在做全面的向企业和消费市场的转型,这与360的合作和整体转型战略不谋而合,既可以壮大华为的终端规模,开辟另一个收入来源,更可以直接和主流互联网厂商紧密合作,近距离学习互联网企业的玩法,为华为自己进军互联网服务打下基础。
但华为没有顾虑吗?肯定有的,那就是品牌和主控权,谁也不愿意沦为处于附属地位的一个硬件供应商,天天和别人比拼谁的裤子脱得更低。老周在采访中说:360和厂商合作,只打特供手机。说白了玩的是华为制造360补贴促销的概念,等同于运营商补贴手机,这样就不会伤害到华为高端品牌的建设。一款手机卖便宜了,华为可以说:这是360的特供价,我给360的成本可都不只这个价!
华为觊觎互联网企业的高利润不是一天两天了,看看同城的腾讯和华为的利润对比会让人感慨。这里有个小插曲:前几个月前,有个微博透露说任正非找马云谈合作,华为开出的价码不菲,阿里却死活不肯,深怕被华为一步步掏了窝。消息不知真假,但相信不会空穴来分。
相信老周也是深度盘算过了:如果华为和360深度合作带了个好头,起到了大规模出货的效果,相信下面的手机厂商很难不跟进,到时整个产业链必然偏向360,老周可就处于主动了。毕竟在国内做手机的成白上千家,供应链竞争非常充分,不乏既有供应链又有设计能力的厂家,老周有充足的选择余地。
第五看点:老周如何从互联网应用中赚到钱?
现在小米也没赚流量的钱,老周如何解决呢?多少的量级出货才能摆平盈亏平衡点?毕竟老周可是号称硬件免费哦,这个问题恐怕是老周手机打法的核心问题了,本人对互联网广告和利润获取方法研究不多,360的应用软件也是一大推,估计组合策略挺复杂,暂猜不出老周的算盘,但相信老周必然已有较大把握,就等着看360手机第一期的供货规模吧。下回再来拆解。

老周的招数—由360进入手机硬件行业带来的思考(三)

续前面,再来看看互联网公司到底在软件上部了什么局,猜猜为啥要这么布。
第六看点:巨头们在移动互联网上的布局和内因分析
从网上找到一份中国8大互联网厂商在移动上的布局,挺详细的,可做图片放大,如下:

老周的招数---由360进入手机硬件行业带来的思考(三)

各家几乎都想把自己在PC桌面上优势业务带入到手机上,或者在手机上开辟一番新天地。对比下来,9大厂商中在移动互联领域优势不同:
1,腾讯/百度/新浪
手机QQ霸主地位已经多年,传统业务实力强大,国内在sns领域上除weibo外尚无有实力挑战,微信同样已经击败米聊,保护了QQ的外围,腾讯积累的社交能量,体现在腾讯微博等各个方面,只要做一款产品,总能在短期内获取其他家需要N倍努力才能获取的用户数量。腾讯后面要做到,恐怕就是整合名下应用,做成统一通信平台。
百度无SNS优势,但却在中文搜索中积累雄厚,但搜索引擎这个关键引用只要消费者主要通过浏览器上网,就不太容易被竞争对手的APP攻占,因而百度更重要的是开拓其他流量来源,在手机硬件上保护应用还没有到这个度。目前百度的重点是在流量多元化(比如奇艺)。
百度+腾讯就是中国的google,目前两家在互联网上皆有垄断力量,利润丰厚,经验有道。对他们来说,只要利用原有优势经营好云端,做好数据挖掘才是更重要的。利用手机硬件来保护APP的急迫性,尚未体现出来。
weibo的崛起,彻底改变了sina沦落为二线梯队的命运,也阐释了移动互联网上的大玩家,未必就一定要玩硬件。玩出最精彩的应用,才是核心竞争力。微博其实也是个轻客户端,一旦用户粘上就不太容易丢失,目前地位已经巩固,在云端发掘数据获得盈利是关键。
这三家的共同点就是:手机终端只是承载内容的平台,只要维持终端上的流量即可了,但终端并非直接利润来源。
其他网易/搜狐,也纯粹是为了占个泡流量的坑,探索一下移动互联网的新玩法。对介入硬件并无特殊利益和兴趣。
2,360/盛大/阿里
360和盛大是目前介入手机最深的互联网厂商。两家的业务模式直接和终端相关,360杀毒是直接为手机服务的,每一个手机使用者都是360的潜在客户。盛大也也是如此,每一个阅读者,都可以通过下载电子书为盛大贡献利润。这应该是两家进入硬件的重要原因,另一个我猜想也很重要的原因是:手机的使用习惯,消费者远未形成,存在极大的可塑性,这对通过直接销售内容或服务直接获利的厂商意义重大。 而对于SNS或其他主要通过流量广告获利的厂商影响较小。手机不同于PC,PC多年下来,要装什么软件,怎么获取信息方便,基本已经形成固定的习惯了,推广应用的边际成本很低。而手机用户装那些应用,可还是个没谱的事,而且手机的使用寿命远低于PC,许多手机生命周期只有1年,1年后换个手机,应用也就随之消失了,这对360/盛大来说很不牢靠。只有迅速造势,推动消费者养成使用安装杀毒软件的习惯,才能确保360的地位。只要把360手机杀毒的理念牢牢的宣贯给手机用户了,将来360即使不做手机也很正常。
阿里的情况有所不同,阿里作为电商平台,不是依靠服务和内容赚钱,只要淘宝的价格够便宜,各类店铺能够有卓越的服务,就是阿里的核心竞争力。推出手机客户端,一是为了提高用户体验推动手机网购,二是电商竞争对手太多,各类B2C卖家都不是好惹的主,必须在手机网购上提前探索。对于阿里搜购天宇,笔者没感受到有什么重大意义,应该就是阿里的一次试水吧/
3,其他电商
国外互联网巨头中,真正介入硬件的,只有亚马逊(当然苹果也是,如果把苹果看作互联网公司)。google运作moto纯粹为了专利,有了android这个平台,google迟早会退出moto。性价比超高,体验良好的kindle fire,确实极大助推了亚马逊的增长空间,kindle就是一部造钱机器;如果以后亚马逊做手机,也没啥好奇怪的,在美国,靠兜售电子书的收入,早已经超过了实体书籍。而国内电商由于知识产权的问题,恐怕在短时间内并无此利益驱动的力量。
4,金山系(小米)
许多手机业内人士都在怀疑小米是靠硬件在维持利润,也很怀疑这样一个出入手机行业的新手雷军,能否真的能把小米做大。从目前进展来看,小米硬件获得了一定的成功,但米聊/miui等核心应用的推广,却并未得到手机用户的热捧,这对雷军来说,是否可算一定程度上的失败?面对腾讯迅速强力的出击,手握硬件的小米(米聊)并未占到丝毫便宜。我想雷军也肯定在反思,软硬合体的玩法究竟应该如何改进才能具有真正独特的优势。从这方面来说,明知山有虎,偏向虎山行的老周,应该有了更大的把握。

这个系列先写这么多了,互联网大佬们人精钱又多,想猜出他们的玩法简直不可能,只能这么瞎子摸象揣测一下,具体就看后面的出招了。从360/小米/盛大的玩法来看,手机硬件价格又开始了新一轮的下跌冲动,供应链和规模,快速的新品推出能力,越来越成为了手机厂商的核心竞争力。价格主导下的新一轮的行业洗牌已经不可避免;而首当其冲的,恐怕就是HTC/三星等目前维持着较高毛利润的手机厂商,以及成本规模控制上不给力的小厂,原本在中兴华为等群狼打压下日子已经不好过,现在又从互联网业内跑进来这么多搅浑水的主,后面可咋办是好?

(12个打分, 平均:4.42 / 5)

SDN White Paper

(1个打分, 平均:4.00 / 5)

OpenFlow发源地探秘



(2个打分, 平均:3.50 / 5)

从半空看虚拟化

(4个打分, 平均:4.50 / 5)

中国移动互联网蓝皮书

(2个打分, 平均:5.00 / 5)

百度推出千元云手机

5月10日消息,百度与长虹合作推出的一款智能手机,将于下周正式对外发布。这款定价低于千元的手机,还将成为联通采购的合约机。

  昨日,百度移动发展部总监岳国峰在其新浪微博上发布了一张手机图片。据推测,岳国峰透露的正是百度千元云手机。

岳国峰微博透露的百度千元手机照片

  从图片可以看到,这款百度云手机采用3.5吋屏幕,按键板区域包含返回、主页、菜单和搜索这四个重点功能键。此外,这款手机还将配有多种彩色外壳。

  而截图中的信息显示,手机搭载的百度升级版云智能终端平台上,将集成智能框搜索、云服务、本地服务等功能,此外百度还将提供类似Siri的语音搜索功能。有消息称这款手机内置的云存储空间为100GB,而且还将支持免费扩容。

  此外,图片还显示,联通“手机营业厅”等服务已经内置其中

  有资深手机专家表示,从已经泄漏的图片推断,百度此次筹备推出的千元智能手机,与长虹手机推出的H5018较为近似。不过目前尚不能确认两款手机在配置方面是否一致,仅能确认百度千元手机的屏幕尺寸为3.5吋。另据透露,百度近期还将与手机厂商合作推出第三款手机产品。

  百度正在逐渐完善移动互联网布局,尤其是在涉及硬件的领域。继去年与戴尔合作推出定位较高端的智能手机D43之后,百度又将目光瞄准较为低端的市场。多次放言不具体涉及手机硬件的百度,现在再次携手国内手机厂商,共同推出这一款智能手机产品。

百度月中即将推出的千元云手机

(2个打分, 平均:4.50 / 5)