一种基于数据动态迁移的分级备份系统的研究

时间:2024-09-20 14:36:56 来源:作文网 作者:管理员

摘 要:随着运营商信息化进程的不断深化,业务数据量处于高速的增长,管理信息系统的高效访问以及安全性正在变得越来越重要。本文以信息系统的数据价值评估为基础,提出一种数据动态迁移模型,并引入虚拟带库作为近线存储,形成完整的解决方案。实现传统备份到分级备份的升级改造,优化信息系统备份架构,提高数据的访问以及保护的效率。

关键词:备份;信息生命周期;虚拟磁带库

中图分类号:TP274 文献标识码:A

Abstract:With rapid development of informatization advancement and steep rise of total quantity of data, security and reliability of information system become more and more important. This paper introduced a dynamic migratory pattern based on dynamic value evaluation, and put forward a solution using virtual library as nearline storage. The solution optimizes the framework of backup, and theท measurement indicates that the security and reliability of information system has been boosted.

Key words:backup; information lifecycle; virtual tape library

1 引 言

传统的数据备份方式存在备份时间过长、成功率难以保证、可靠性和可扩展性不足等问题,成为影响业务连续性的隐患。虚拟磁带库(VTL)技术的出现使得设计分级存储架构成为可能,本文提出一种基于信息生命周期的动态迁移模型,对于备份效率,系统响应速度的提升取得了比较好的效果。

2 虚拟带库技术概述

传统作为备份介质的磁带库, 其优势是可以成本低、数据的移动比较方便,但是磁带介质不稳定,容易受粉尘、湿度等因素的影响,出现读写错误,对保存环境的要求比较高。磁带库的机械手和驱动器属于精密机械设备,故障率较高,数据恢复时间比较长。

虚拟磁带库(VTL)技术将磁盘作为存储介质,通过软件在逻辑上将磁盘存储系统虚拟为传统的磁带库设备,在逻辑上模拟机械手、驱动器的功能。虚拟磁带库能够和主流厂家的备份软件无缝地兼容,实现许多数据备份功能。

VTL 技术以磁盘作为存储介质,将磁盘仿真成物理磁带库,利用传统备份软件实现和物理磁带库同样的数据备份功能,提供与物理磁带库一样的操作。实现在不改变原来磁带库备份架构的情况下,用磁盘代替磁带,以缩短备份窗口、提高备份成功率。

3 分级存储

3.1 传统存储备份架构

陕西移动管理信息系统原有的存储备份构架由在线存储和离线海量存储构成两级平台。在线存储采用磁盘阵列等高速的数据存储设备, 满足计算平台对数据访问的速度要求,价格相对昂贵。离线存储主要用于对在线存储的数据进行备份,以防范可能发生的数据灾难,主要采用的产品是磁带库。两级模式存储构架下, 用户系统的业务数据即时写入磁盘阵列里,然后根据备份策略在业务空闲时段将这些数据从在线存储设备上备份到磁带库中。

随着企业数据的不断膨胀和对于系统响应速度以及业务连续性要求的不断提高,传统带库备份方式已无法适应不断增大的备份窗口以及数据恢复时效性的要求。而且由于离线海量存储的磁带备份技术存在速度较慢、数据定位存取慢、故障率较高等缺点, 所以都会对在线服务器的工作性能或服务时间产生影响。

3.2 三层结构的存储备份方式

根据在线存储和离线存储在数据量、响应速度方面巨大的性能差距,引入了VTL作为近线层以缓解性能以及存储空间的矛盾。近线层存储性能近似在线的存储,其特点是数据访问速度接近在线存储,但成本接近离线存储。三层结构模式下,系统数据首先实时存储到磁盘阵列等在线存储设备,然后备份系统按策略定期将数据备份到近线存储设备, 近线存储设备上的数据不区分生产系统是否繁忙,随时备份到带库等离线海量存储设备上[1]。在线存储设备里不常使用的数据还可以迁移到近线存储,甚至离线存储,在需要访问时再进行回迁,这样的设计节省了在线存储设备的磁盘空间,提高了访问效率。

这种磁盘与磁带相结合的数据备份方式,将磁盘快速访问与磁带高速顺序读写的优势结合起来,并屏蔽了磁盘上在线数据不够安全与磁带恢复速度慢的缺陷,大大提升了备份与恢复的性能[2]。分级存储管理和数据迁移将离线存储与在线存储融合,从而大大降低对海量数据存储备份的投入和管理成本,较好地解决了传统两层存储备份模式在存储效率和成本方面的不足。

4 生命周期管理以及信息价值评估

4.1 信息的生命周期管理理论

信息生命周期管理(ILM)是首先是由EMC公司提出来,其核心是信息在不同阶段的价值不同,通过合适的方式存储数据,帮助信息中心从战略高度来管理信息。信息在不同的生命阶段具有不同的价值,ILM就是要实现在信息生命周期的不同阶段,依据信息价值的不同,采用不同的方式来管理信息,使企业在降低总体拥有成本TCO的同时,获取信息的最大值[4][5]。根据用户应用的现实需求,对信息进行全生命过程的建模管理,包括数据创建、使用到归档和销毁。

4.2 信息生命周期管理的实施

根据信息管理的目标和策略展开信息管理,信息生命周期管理实施可以分为如下几步: 1)对信息价值进行评价。对数据按照属性和使用情况来确定其价值。信息的价值在信息的整个生命周期中是不断变化的[6]。二信息价值随时间变化的关系。

2)选择存储策略,进行分级存储。存储策略的选择是信息生命周期管理的核心部分,需要综合考虑各要素。下图为各级存储设备中数据价值的变化。

3)信息存储的工具。是指将信息存储到网络或存储介质,以及用于数据备份、快照技术等的工具选择。

4)对ILM的定期检查。对整个生命周期过程进行全面检查,发现存在的问题,并及时对其进行处理。

信息生命周期管理重要的一点是要按照预定义的价值阀值高低来安排合适的存储设备。使重要的信息获得较高优先级,同时控制了一般信息的存储成本。本文给出了一种典型的方法确定数据的价值。

5 信息价值评估以及元数据设计

本文提出了一种信息价值评估的模型,该模型根据信息的文件大小、访问频率等静态因素以及相关性等动态因素,通过这些因素赋值的加权计算,得出信息的评价值,作为数据进行迁移的依据。通过设计元数据,对信息的索引进行结构化改造,对信息的内容、结构、表示等进行抽象,以便进行数据的排序和迁移。

5ส.1 信息价值评估模型

1)文件的大小

高性能磁盘阵列由于成本较高,容量有限,如果大量的大文件存储在高性能磁盘阵列,其会占据很大的存储空间,小而且重要的文件就无法及时被访问到,导致存储系统性能的降低,因此小文件的价值更高,应优先迁移小文件到高性能磁盘阵列中。S为文件大小,将其对于信息价值评估的贡献定义为V1。

为保证元数据对于文件信息表征的准确性,监控程序对文件操作进行监控,并触发相关的记录更新。根据应用场景,本文采用事件触发方式同步实现元数据的更新。读写文件、文件的删除以及重命名等都是能够触发元数据更新的操作。

6 模型结构以及具体实现

6.1 基于信息价值变化的数据迁移模型结构

当信息价值变化达到了进行迁移的触发条件,模型创建迁移主线程和迁移文件的任务队列,在迁移过程调度的控制下开始进行迁移。迁移的过程有两部分,即非热点数据从高端存储迁移到低端存储,热点数据从低端存储迁移到高端存储。同时,为避免这个迁移过程对存储系统的性能影响,模型采用了双候选队列,根据负载和价值进行迁移任务队列的集中调度。整个迁移的模型结构,包括文件监控模块、迁移过程监控模块以及元数据维护模块三部分组成。下图为迁移过程控制整体结构图。

6.2 算法实现

基于信息价值的数据迁移策略执行过程表述如下:

2)迁移进程创建,同时读取控制参数,从价值最低的文件开始进行迁移。

3)根据系统负荷,动态的调整迁移的优先级,并基于迁移中文件价值的变化重新计算关联文件价值,完成更新。

4)迁移中线程被中断或者被迁移的数据被应用访问,则已迁移的副本失效,并反馈给文件监控模块,跳转到步骤1。否则继续执行步骤5.

5)基于文件价值的重新排序,对迁移队列中的文件进行调整,继续进行迁移,直到高端存储占用容量达到70%以下。

6)在迁移完成后修改元数据,重定向迁移文件,并且释放文件锁,结束此次迁移。

7 改造方案以及性能分析

7.1 改造方案

陕西移动公司管理信息系统原有备份体系的结构是通过SAN+LANfree方式的集中备份管理,2台IBM3310带库通过SAN模式对♒统一信息平台以及ERP系统进行光纤通道直连备份,其余财务集中化、物流等系统通过LANfree方式备份,备份软件采用Veritas。目前的备份策略是采用每周一次全备,每天增量备份的方式,通过物理带库方式进行备份。传统的低效率的备份方式加之随着业务的发展需备份的数据量不断增加,导致备份窗口经常冲突导致备份失败,故障率增加。

为解决上述问题,在原有磁盘阵列物理带库之间引入性能较低的SATA盘组成虚拟带库(VTL)作为近线存储设备,并通过基于信息价值的动态迁移机制,提高备份效率以及访问的命中率。改造后的三级存储系统备份的性能得到提高,备份速度加快,备份窗口大大缩短。并根据测试结果,数据恢复速度大幅提高,系统的RTO指标得到优化,解决了传统物理带库可恢复性低的问题。

7.2 性能分析

为了验证性能,我们通过对约800GB的数据进行备份以及恢复测试。通过对比,可以看出分级的备份系统较传统的备份系统在数据的备份以及恢复性能上有了较大的提升。

实际的应用表明,基于数据动态迁移的分级备份平台建设,改善和优化了备份框架,提升了数据备份与恢复的能力,增强了业务系统稳定可靠的运行能力。同时其具有开放的扩展性,充分利用现有硬件资源保护投资,可以满足数据量持续增长后系统性能提高的需求。

参考文献

[2] 吕帅.基于对象的分级存储系统数据迁移技术研究[D].长沙:国防科技大学,2009.

[3] ZHAO Xiaonan,LI Zhanhuai,ZENG Leijie,A Hierarchical Storage Strategy Based on BlockLevel Data Valuation[C]//In the proceeding of the 4th International conference on Betworked Computing and Advanced Information Management,2008:36-41.

[5] 唐竟.基于生命周期管理数据迁移技术研究[D].长沙:湖南大学,2009.

[6] Chritine Taylor Chudnow.Information Lifecycle Management and the Government[J].Computer Technology Review 2004,24(8):25-26.

[7] 王艳卐云.分级存储系统中数据迁移技术的研究[D].西安:西安建筑科技大♫学,2012.


热门排行: 教你如何写建议书