计算与存储重新合体?三统理论?真正的统一存储?

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




        存储和计算结合之后,是什么样的产品形态啊?计算,存储,都很牛叉的机器?
JIM GRAY,有一篇论文谈到,真正成本最高的地方在网络…我们也确实可以感觉到,在同步数据,或者做灾备的时候,最头疼的还是两个节点之间的通道有多大
       这里有个观点,叫做三统,哪三统呢?首先是集群的统一,大家知道目前有各种各样的集群,比如计算集群 、存储集群,存储集群中又分为汲取SAN、集群NAS、分布式文件系统、集群文件系统等,那么如此多样的集群,其本质无非就是一堆x86的节点,用某种网络连接起来,后面挂了大量磁盘的,他就是存储集群中的节点,拥有大量CPU和内存的,它就是计算节点,如果两者皆有,那就是统一集群了。为何计算与存储以前要分开呢?因为以前的DAS直连存储性能和容量均跟不上,而且是属于孤岛形态,必须要将其与计算分开独立发展,先发展为双控制器传统网络存储,此时计算与存储无法合体,但当外置存储发展到集群化形态之后,虽然其表像仍然是分的,但是其里面却是合的,对外合为一体的。此时,计算与存储集群经历了长久分开之后,也必将会重新合体,寻回其本源。大家可以看到这是一个轮回。如今,存储系统正在向集群化发展,而计算也是集群化,那么计算集群与存储集群就可以完美的被融合起来了,形分神合。这种形态也属于之前提过的“自助型存储集群”。除了主机集群与存储集群的合体之外,集群SAN与集群NAS其实也可以统一,目前很多厂商都推出了块虚拟化产品,它们的Lun在后端其实就是一个文件,可以被打散存放在底层磁盘各处。既然SAN设备底层都使用类文件系统来管理了,那么SAN与NAS的后端其实就已经被统一了,剩下的,就是前端访问协议的统一了(见下)。此外,集群硬件也将变为一个平台,其上的各种协议、应用,则变成了一种服务,比如SAN服务、NAS服务,而分布式文件系统则是集群NAS的支撑层,其本身与集群NAS属于一种本质上的东西。至此,集群硬件形态与上层软件充分解耦。
       其次是访问协议的统一。既然集群已经变为一个通用集群,那么访问这个集群的方式也应该被融合。上文中曾经提到过,文件与块的本质其实是一样的,只是组织与访问方式不同罢了。如今块虚拟化的存储系统比比皆是,它们无一例外都将Lun像一个文件一样来对待,恨不得直接在纯种文件系统中用文件虚拟出一个Lun来岂不快哉?既然这样,底层其实是被文件系统给统一了,那么外围的访问方式上,也应该被统一。本质上讲,不管是块还是文件,其实它们都用同一种协议访问:操作码、目标、起始偏移、长度。对于块访问,目标就是Lun ID,而对于文件,目标就是某路径,比如/a/b/c.txt,那么是否有一种东西来屏蔽目标的不同呢?其实早就有这种协议,说到这里大家可能就悟到了,这就是对象存储系统,对象存储协议就是将文件与块访问大统一的最佳候选协议了,只要时机成熟,文件、块大统一的访问方式必将席卷存储技术领域。块与文件这两种访问协议分开太久了,有合的趋势与欲望,底层技术也很给力。其实对象存储协议早在上世纪80年代就被提出了,时隔30年,如今终于有了用武之地,就是利用对象协议,可以将文件与块的访问完美的融合统一起来。如果真的可以用对象存储做到统一,那么主机端会出现一种新的HBA,即OSD HBA,其将OSD Initiator集成到硬件中,存储对象既可以表现为一个目录,又可以表现为一个卷。
       最后,就是网络的统一。不管第一网第二网还是第三网(分别指代前端业务LAN,中间的存储SAN以及后面的集群通信网),如果有一种网络可以同时满足需求,那么为何不统一呢?比如以太网。
       做到这三统,这才是真正的统一存储,而不是同一个机头同时出块和文件协议,这就叫统一存储?噱头而已,看似统一,实则意义不是很大。
       再说回来,这种统一之后到底是个什么牛x机器?答案是不是单独的机器,就是一群机器,通过软件模块联系起来,对于计算机来讲,硬件属于物质本源,属于阴,属于形;软件则属于精神本源,属于阳,属于神。用软件模块将计算和存储颗粒汇总起来发挥作用,并且将原本的以计算为中心的计算方法变为以存储为中心的计算方法,把计算颗粒分配到存储了计算所需要的数据的节点上,在哪存储就在哪计算,大幅提高效率和速度,避免了频繁大量数据传输,这也回答了你的另外一个问题“成本最高的是在网络上”,其实这句话暗指,数据移动起来成本太高了。网络本身成本不高。但是如果要容灾,依然可以使用这个思想,即在哪存储就在哪计算,可以在业务层面进行双份,而不是数据层面,比如一笔交易,可以在业务层面将其同步到远端,远端针对这笔交易生成自己的数据然后下盘,一个实际例子比如数据库日志同步方式的容灾,同步量相比直接底层数据同步来的少很多。
       你说的那种“计算与存储都很牛x的机器”,也不是没有,但是还不到时候,到了量子计算和分子存储时代,那时候计算机形态又会轮回到初始原点状态,单台机器,确实很牛x,大家都拿高速网络来连接到这台超级计算机上获取资源
       最后,预知详情,请阅将在明年3月出版的鄙人专著《大话存储2》

(1个打分, 平均:5.00 / 5)

雁过留声

“计算与存储重新合体?三统理论?真正的统一存储?”有21个回复

  1. deltali 于 2011-01-01 5:22 下午

    一点小建议:强烈建议挂几幅图,除非你能像毛德操那样把每个细节都讲明白了。不然你这篇文章,内行看了浪费时间,外行看了半天迷糊,也是浪费时间。

  2. 冬瓜头 于 2011-01-01 6:41 下午

    deltali,感谢提出。已经放了两张示意图,不知道是否合口味,呵呵

  3. oioi 于 2011-01-02 6:42 上午

    最后,预知详情,请阅将在明年3月出版的逼人专著《大话存储2》

    我地个神呀,明年3月?2012年的3月份?

  4. 冬瓜头 于 2011-01-02 6:53 上午

    呵呵,不是的,是2011年的3月。写这篇的时候还是去年,新年快乐!

  5. symantec 于 2011-01-02 7:09 上午

    冬瓜头,把我在华赛论坛上 提问的帖子都贴到这里来了。。哈哈

    还好,我也是一个超级潜水的弯友,还是被我发现了…

  6. 冬瓜头 于 2011-01-02 7:04 下午

    哈哈,symantec,你到底是谁啊,到处出没。打一枪换一个地方

  7. 漂移 于 2011-01-03 4:44 上午

    言之无物,臭屁一堆

  8. 冬瓜头 于 2011-01-03 5:47 上午

    To 漂移:
    鄙人自知才疏学浅,不管文字水平如何,只是表达了自己的观点,确实缺少一些支撑的东西。这方面后续会向大家学习,不断提升个人水平。

  9. 加菲猫 于 2011-01-03 8:58 下午

    冬瓜头来这里开博了

  10. droplet 于 2011-01-03 9:24 下午

    Web本身就是个大文件系统,而搜索引擎就是索引。

  11. 冬瓜头 于 2011-01-03 10:30 下午

    To droplet:

    精辟。而且也可以说互联网就是一台大计算机。其实现在的云数据中心,就是一台变形金刚里的大力神,硬件是核心层,然后是存储层,也就是分布式文件系统之类,然后就是计算层,虚拟机弹性计算,最后就是管理层,加上并行计算调度层等,最后就是应用程序孕育层。 对比一下:

    1. 计算机加电,硬件启动—》云数据中心硬件核心层启动。

    2. 从磁盘读取代码以便启动OS—》云中的数据承载层。各种分布式FS分布式DB,key-value DB等。

    3. OS启动—》云中的虚拟计算层,生成大量VM。

    4. 启动到用户界面—》云中的管理层,比如微软System Center,Novell Cloud Manager,思科UCS的Unified Manager等等。

    5. 内核的线程调度器—》云中的并行计算调度层,比如Mapreduce以及其衍生物。

    6. OS提供的开发API,VC,Java—》云中的PaaS开发平台。

    7. 各种运行在OS上的应用程序—》SaaS展现层,各种云业务。

    云由计算机组成,它骨子里和外部形态上,还是一台计算机。 这些观点在《大话存储2》中也有涉及,还画了一张比较形象的云图,届时大家可以看看,多提意见。谢谢大家支持!

  12. locsic 于 2011-01-04 6:45 上午

    这篇文章有点扯,不像是搞研发的写的东西,倒像是市场人员的忽悠文章。

    统一是个伪命题,所有的技术进步都来自需求驱动,没有明确的需求,用户为什么要去统一,没动力嘛

    块/文件/对象根本就在不同的层次,怎么统一?

    网络统一倒是有的谈,但到底是iSCSI还是FCoE还有争议,各有各的好处,目前还谈不上谁取代谁呢

    集群更是一个被用滥了的词

  13. 冬瓜头 于 2011-01-04 7:26 上午

    locsic一眼就看出来了,鄙人确实不是研发人员,但是一直向往做个研发人员,只是能力有限,未遂。这个只是个人的一些不成熟的臆测,虽然没有太多支撑的东西,几乎都是根据事物发展的规律做出的预测。分久必合,所以预测计算与存储再将合体,合了之后就会部分避免数据大量通过外部网络传输,提高效率,再加上计算跟着存储走,这两者合起来作用,今后可能是趋势。当然都是个人臆测,大家拍砖也是对的,希望能多给论点,比如你认为绝对不会合,那么欢迎提出并分析,向大家学习!

  14. 陈怀临 于 2011-01-04 7:35 上午

    是不是研发人员确实能从文章看出来。。。我的文章估计一看就是Engineer。没有高度,但(有时)有深度。市场的人写的一般比较视野比较广。其实是非常好。。。

  15. huang_huihuang 于 2011-01-04 7:46 上午

    其实很多东西追究起来就可以看到它的本质。“统一”什么跟什么统一:集群统一、协议统一、网络统一,这些统一除了效率、速度上还有用什么好处?如果统一只在效率、速度上带来一点点好处,那统一是不是值得?我们知道在云计算领域,真正有突破的是google的Mapreduce技术,这种技术带来并行计算技术的普及,使得互联网的效率大大突破以前,这种技术不是靠什么统一出来的。真正高级的技术不是靠“统一、重新合体”等概念支撑的,要向google一样,从技术上创新,单靠组合一些机器是不能得到真正的创新的。

  16. 冬瓜头 于 2011-01-04 8:10 上午

    感谢huanghuihuang发表看法。正是有了mapreduce的给力,再加上计算存储都走向集群化,那么正好他俩是不是可以合体呢?看了一下您的博客,里面有个“道cpu”和“道指令”的概念,而且还将他俩与易经和量子结合了起来论述。那么我如果将计算和存储集群比作两条通电的导线,电流方向相同,他们是会吸引在一起的。

  17. locsic 于 2011-01-05 5:29 上午

    其实分析下intel的芯片和存储方案可能更有意思。

    这几年,基于Intel架构的中低端存储方案越来越多了,我个人感觉,在存储这个领域,会重蹈声卡、显卡领域的覆辙,慢慢被intel用集成方案给吃掉,intel的方案不高端,但简单、集成性好、性价比高,市场占有率会慢慢扩大,估计以后60%的存储方案会变成Intel的

  18. 冬瓜头 于 2011-01-05 6:21 上午

    同意17楼观点,Intel在存储领域可谓是独占鳌头了,目前使用power的有ibm DS8000,infortrend,其他就我了解的范围,都是Intel平台了。我最近正在琢磨着写一篇《计算机周边部件的发展对存储的影响——存储系统路在何方?》的文章,因为看到x86,众核,PCIE3.0,云,分布式系统等的发展,传统存储越来越折腾不起来了,最终可能真的重归计算的怀抱。

  19. 冬瓜头 于 2011-01-05 6:22 上午

    前几年还有用AMD的,现在连AMD好像都没有存储用了,低端甚至用Atom做桌面NAS。

  20. Jack_Wang 于 2011-01-11 5:14 上午

    低端的NAS有很多是用ARM core的

  21. 冬瓜头 于 2011-04-21 10:37 下午

    最近看了思科提出的FabricPath解决方案,我隐约感觉到网络的融合已经是大势所趋了,那么这三统理论的其中一统是不是可以说是玩对了呢? 第二统,集群的统一,也就是角色的统一,服务器、存储会被归一化。最后第三统,也就是访问这些角色的协议也要统一,我越来越觉得这三统是正确的,让时间检验吧。