信息时代存储的演变

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享

到底是信息技术的发展推动了存储,还是存储促进了信息技术的发展.可以说两者之间是一种相辅相成的关系。随着信息类型的多样化以及信息量的迅猛增长,对于存储的要求无疑越来越高。同时,随着存储设备单位存储粒度的不断提升以及存储设备价格的下降,也使得存储成本明显降低。(1956年,IBM最先引入了数据存储设备。第一块硬盘是1956年随IBM 305 RAMAC计算机一起出现的IBM Model 350磁盘。它由50个24英寸圆盘构成,总容量略小于5兆字节。)

为了能够观察存储的发展历史,需要对HDD(Hard Disk Drive)的进化过程进行研究。从1980年到2003年期间,HDD的存储密度提高了7个数量级,而相同设备所占用的空间却降低了7个数量级。同时,价格也降低了2.5个数量级。但是,比提高了存储密度以及降低的价格更有意义的是对于存储的新型应用出现了。在1996年,数字存储比用纸来存储更具性价比(证明了存储的价值);1998年,电影所使用的存储媒介也可以用更加经济的数字化实现(体现了对于存储的需求)。随着消费市场的兴起,对于机顶盒式存储设备的需求更加巨大,强有力的推动了存储的发展。同时,也引发了新型存储技术的研发。随着存储设备价格的不断降低以及存储能力的不断提高,直接影响了现有的存储架构。存储的管理功能在整个存储系统的花费中所占的比例大幅增加。用户已经由对存储设备的购买转向了对存储功能的购买,各种存储功能软件的出现也为信息的管理提供高效与安全保障。

随着存储设备的不断发展,存储系统的概念也逐步被建立起来。存储系统不单单包括硬件设备,同时也包含了软件部分,比如存储管理系统,操作系统等。存储已经不再是存储子系统的概念了,而是独立出来单独的系统。而且存储的目标不单是容量的扩充,也包括性能与可用性等方面。从信息技术整个演化过程来看,包括处理,传输与存储三大步骤。其中,信息的存储是前两者的重要保障。每一次存储技术的发展都带来了信息技术的变革。从早期对于单机设备之中关于存储设备的研究,到互连网络的发展,再到云计算,物联网等新型网络形态的出现,都与存储密切相关,现阶段逐步发展起来的集群存储是新型网络的有力支撑。在不同阶段都产生了很多存储技术,这些技术追求的目标都是高性能,高可靠,高可用,低成本。这些技术包括RAID,虚拟化,卷管理,容错,容灾备份,分级,镜像,自精简,快照,ISCSI等等。

单机的存储发展历程:刚开始存储直接由CPU控制,随着对于容量、性能以及可靠性需求的出现,人们开始在存储中引入多个控制器,从而加强可靠性。当RAID技术被引入后,存储系统的概念逐渐发展起来,期间也出现了备份系统,灾难恢复系统。这些组件共同组建了存储系统。同时由于RAID技术的不断发展,使得存储系统的性能与可用性都有了很大的提高,特别当校验的概念出现后。并且随着各种类型的存储介质共存现象出现,也需要将数据进行分级存储。同时,为了解决磁带的使用浪费现象,也是用了虚拟磁带技术。随着本机存储的发展告一段落,现阶段已经迎来了存储网络时代,NAS,SAN等不同的网络存储形态已经顺势而生,未来将对网络存储进行更多深入讨论。

(2个打分, 平均:2.50 / 5)

数据分级存储——开启大数据时代下高效数据管理之门

         信息技术主要包括信息处理,传输与存储三个主要部分。其中,信息的存储是前两者的重要保障。每一次存储技术的发展都带来了信息技术的变革。从早期的PC终端开始,伴随着互连网的迅速普及与扩张,再到云计算,大数据的发展,存储设备的密度与容量按照摩尔定律不断发展,并且向着高性能,高可靠,高可用,低成本的目标不断前进。

        随着信息化社会的飞速发展,使得云计算、物联网等新型的数据应用模式广泛普及,同时,也带来了数据的海量增长,进而引发了对于PB级海量数据智能分析管理的研究热点。数字化世界的发展让越来越多的企业认识到,IT系统是通过数据来帮助企业完成业务的,在竞争激烈的市场中要想获得竞争的优势,企业必须以实现良好的数据管理能力为前提,将数据管理列为企业IT信息系统建设的核心,并善于利用企业自身所产生的宝贵数据。2011年将产生的数字信息量预计会达到接近1,800 EB,是2006年所产成的10倍。该数据中的95%将是难以管理的非结构化数据——电子邮件、Word文档、视频等等。这些信息的90 %在创建后就从不会被访问,很显然,不应将所有数据一视同仁。智能数据管理的出现为企业解决上述问题提供了新的思路。在智能数据管理中数据分级存储管理能够有效地在存储资源的效能与利用率之间进行合理平衡,在当今以绿色存储与节能环保理念背景下,数据分级存储技术更加受到企业与政府的高度关注。

        在智能数据管理的概念中,一个核心的思想就是将数据放置到最合适的位置上,能够实现这一理念的关键技术包括数据分级存储管理技术以及数据特征模型分析技术。首先,数据特征模型分析技术能够实现将何种数据进行管理的任务,其次,数据分级存储管理技术能够实现如何合理管理这些数据的任务,因此,将数据特征分析技术与数据分级存储管理技术相结合,能够实现智能数据管理的概念。数据分级存储技术可根据数据访问特征在存储虚拟层对存储设备组成的存储资源进行合理组织,形成多级的存储层次(如根据设备传输速率分为高速、中速和慢速存储设备,并可根据存储需求扩展到更多设备级别),并对上层应用需求进行特征提取和聚类处理,基于数据访问的局部性原理,构建应用数据与存储空间映射的数据特征模型,将不经常访问的数据自动迁移到存储成本层次中较低的设备,释放出较高成本的存储空间给更频繁访问或更高优先级的数据,从而大大减少非重要性数据在一级本地磁盘所占用的空间,加快整个系统的存储性能,降低整个存储系统的拥有成本,进而获得更好的性价比。

1合理分配存储资源,提高存储系统访问性能

       数据分级存储管理(Hierarchical Storage Management,HSM)是指为了能够实现对于数据的高效管理以及降低存储成本,将数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理系统依据迁移规则实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。如图2所示,不同层次设备中的数据根据迁移规则(比如存储频率等)进行升级或者降级处理。

                            

2、行业分析

         在分级存储中,数据特征的统计以及存储资源的映射是关键。在对数据特征进行统计分析时,通常分为基于文件的数据分级管理与基于扩展块的数据分级管理。由于文件属性当中包含着多种特征信息,如文件大小,类型等,因此,基于文件级的数据特征分析能够获取更多的数据特征。如果以文件作为数据特征统计的基本单位,如果文件比较大,但是只有局部信息经常被访问,那么就存在对于热点数据定位不准确的问题。因此,为了能够更加准确的定位热点数据,将真正需要被分级的数据放置于高效且昂贵的存储资源上,从而获得更细粒度的数据分级管理方案,研究正在逐步朝着基于块级数据的分级技术不断深入。

        基于块级数据的统计分析主要是对卷中一部分固定大小的数据进行监控,块数据越小,那么就能够获得更高的数据分配效率,因为,卷中需要管理的数据量值比较少,在进行迁移等操作时损耗较少。对于基于块级分级存储的研究已经成为各大存储公司的研究热点。Dell Compellent的Data Progression采用512KB~4MB的精细度,理论上有助于达到更好的磁盘配置最优化效果。EMC的FAST VP搭配VMAX存储设备采用最小达7.6MB的区块,精细度之精细仅次于Dell Compellent的Data Progression。HDS的Hitachi Dynamic Tiering(HDT)技术也相当平衡且拥有弹性,42MB的精细度虽然比不上EMC与Dell Compellent,但也算是相当精细。IBM搭配Storwize V7000存储设备的East Tier,精细度则视与Volume容量对应的扩展数据块而定,系统预设值为256MB。现有工作中,虽然很多公司都对块级分级存储进行研究,但是具体的研究内容并不多见,很多都是针对于工程方面,缺乏对于基于块数据的数据特征模型的深入研究。

(3个打分, 平均:2.33 / 5)

淘宝 。《极限存储设计原理及实践》

(1个打分, 平均:1.00 / 5)