数据分级存储——开启大数据时代下高效数据管理之门

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




         信息技术主要包括信息处理,传输与存储三个主要部分。其中,信息的存储是前两者的重要保障。每一次存储技术的发展都带来了信息技术的变革。从早期的PC终端开始,伴随着互连网的迅速普及与扩张,再到云计算,大数据的发展,存储设备的密度与容量按照摩尔定律不断发展,并且向着高性能,高可靠,高可用,低成本的目标不断前进。

        随着信息化社会的飞速发展,使得云计算、物联网等新型的数据应用模式广泛普及,同时,也带来了数据的海量增长,进而引发了对于PB级海量数据智能分析管理的研究热点。数字化世界的发展让越来越多的企业认识到,IT系统是通过数据来帮助企业完成业务的,在竞争激烈的市场中要想获得竞争的优势,企业必须以实现良好的数据管理能力为前提,将数据管理列为企业IT信息系统建设的核心,并善于利用企业自身所产生的宝贵数据。2011年将产生的数字信息量预计会达到接近1,800 EB,是2006年所产成的10倍。该数据中的95%将是难以管理的非结构化数据——电子邮件、Word文档、视频等等。这些信息的90 %在创建后就从不会被访问,很显然,不应将所有数据一视同仁。智能数据管理的出现为企业解决上述问题提供了新的思路。在智能数据管理中数据分级存储管理能够有效地在存储资源的效能与利用率之间进行合理平衡,在当今以绿色存储与节能环保理念背景下,数据分级存储技术更加受到企业与政府的高度关注。

        在智能数据管理的概念中,一个核心的思想就是将数据放置到最合适的位置上,能够实现这一理念的关键技术包括数据分级存储管理技术以及数据特征模型分析技术。首先,数据特征模型分析技术能够实现将何种数据进行管理的任务,其次,数据分级存储管理技术能够实现如何合理管理这些数据的任务,因此,将数据特征分析技术与数据分级存储管理技术相结合,能够实现智能数据管理的概念。数据分级存储技术可根据数据访问特征在存储虚拟层对存储设备组成的存储资源进行合理组织,形成多级的存储层次(如根据设备传输速率分为高速、中速和慢速存储设备,并可根据存储需求扩展到更多设备级别),并对上层应用需求进行特征提取和聚类处理,基于数据访问的局部性原理,构建应用数据与存储空间映射的数据特征模型,将不经常访问的数据自动迁移到存储成本层次中较低的设备,释放出较高成本的存储空间给更频繁访问或更高优先级的数据,从而大大减少非重要性数据在一级本地磁盘所占用的空间,加快整个系统的存储性能,降低整个存储系统的拥有成本,进而获得更好的性价比。

1合理分配存储资源,提高存储系统访问性能

       数据分级存储管理(Hierarchical Storage Management,HSM)是指为了能够实现对于数据的高效管理以及降低存储成本,将数据客体存放在不同级别的存储设备(磁盘、磁盘阵列、光盘库、磁带库)中,通过分级存储管理系统依据迁移规则实现数据客体在存储设备之间的自动迁移。数据迁移的规则是可以人为控制的,通常是根据数据的访问频率、保留时间、容量、性能要求等因素确定的最佳存储策略。在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。如图2所示,不同层次设备中的数据根据迁移规则(比如存储频率等)进行升级或者降级处理。

                            

2、行业分析

         在分级存储中,数据特征的统计以及存储资源的映射是关键。在对数据特征进行统计分析时,通常分为基于文件的数据分级管理与基于扩展块的数据分级管理。由于文件属性当中包含着多种特征信息,如文件大小,类型等,因此,基于文件级的数据特征分析能够获取更多的数据特征。如果以文件作为数据特征统计的基本单位,如果文件比较大,但是只有局部信息经常被访问,那么就存在对于热点数据定位不准确的问题。因此,为了能够更加准确的定位热点数据,将真正需要被分级的数据放置于高效且昂贵的存储资源上,从而获得更细粒度的数据分级管理方案,研究正在逐步朝着基于块级数据的分级技术不断深入。

        基于块级数据的统计分析主要是对卷中一部分固定大小的数据进行监控,块数据越小,那么就能够获得更高的数据分配效率,因为,卷中需要管理的数据量值比较少,在进行迁移等操作时损耗较少。对于基于块级分级存储的研究已经成为各大存储公司的研究热点。Dell Compellent的Data Progression采用512KB~4MB的精细度,理论上有助于达到更好的磁盘配置最优化效果。EMC的FAST VP搭配VMAX存储设备采用最小达7.6MB的区块,精细度之精细仅次于Dell Compellent的Data Progression。HDS的Hitachi Dynamic Tiering(HDT)技术也相当平衡且拥有弹性,42MB的精细度虽然比不上EMC与Dell Compellent,但也算是相当精细。IBM搭配Storwize V7000存储设备的East Tier,精细度则视与Volume容量对应的扩展数据块而定,系统预设值为256MB。现有工作中,虽然很多公司都对块级分级存储进行研究,但是具体的研究内容并不多见,很多都是针对于工程方面,缺乏对于基于块数据的数据特征模型的深入研究。

(2个打分, 平均:3.00 / 5)

雁过留声

“数据分级存储——开启大数据时代下高效数据管理之门”有2个回复

  1. laotuinbay 于 2013-05-29 1:48 下午

    如文所述,big data多级存储关键在影射。不在物理多级存储本身。怎样影射,比文中所提复杂很多。基于文件属性特征信息,如文件大小,类型等数据特征的统计,过于简单,应用有限。dealing with big unstructured data 的关键在data mining 和 analytic. 搞学术的,读PhD的,应多往这些方面发展,最好的去Wall Street,差点的当叫兽,最后面的去公司。当然个别有鸿鹄志向的列外。

  2. lightsource 于 2013-06-02 8:39 下午

    多级混合存储在1978年早已有之,只是在当今big data背景下如何让老树开花是新方向,涉及到了多个学科的交叉利用,比如人工智能,存储管理等等。在学术上可以研究,但是应用还很遥远,不过对于产品而言也有一定的亮点。