研究基于面向对象的分布式遥感数据存储模型

时间:2024-12-27 00:08:11 来源:作文网 作者:管理员

随着我国高分系列卫星升空,国家大力发展空间信息产业,拥有自主知识产权的海量遥感影像数据及其衍生数据成指数增长,如何对海量遥感数据进行高效的存储和管理,来满足各行业用户的高并发数据需求、提供完善的数据共享服务,成为当前空间信息科学领域的重要研究方向.李朝奎等基于非关系型数据库MongoDB提出一种遥感影像分布式存储策略,使得影像存储在数据入库和应对并发访问方面都具有较好的时间效率,但是MongoDB这类非关系型数据库现阶段技术不够成熟,缺乏稳定性且难以维护.康俊锋提出了云环境下的分布式遥感影像数据存储模型,模型同时结合HDFS和HBase的特点,实现基于Hadoop的分布式遥感影像存储管理,但是该模型并不支持遥感原始数据和相关矢量数据的分布式存储.赖积保提出了支持云计算的遥感影像数据组织模型RSC-DOM,该模型结合sqlite数据库并采用改进的遥感数据直接存取方式,实现对遥感影像产品数据的分布式存储管理,它虽然摆脱了对传统数据库的依赖,但应用场景是基于数据均衡分布的前提实现的,具有局限性.由上文可以看出,现有存储模型大都针对遥感影像产品数据,而实际不仅限于此,遥感数据通常是多源异构的,对于大中型数据中心还需要对遥感原始数据及矢量数据等衍生数据进行存储和分发.另外,在分布式环境下,为了保证数据的快速存取并最大化地发挥分布式存储的优势,现有模型使用简单的哈希取模法试图将海量数据均匀分配在各存储节点,但由于遥感数据的多源多时相性,实际并不能达到均衡分布,并且在各数据存储节点宕机或新增物理存储服务器的情况下,现有模型会出现数据大量迁移的情况,严重影响性能.因此,本文提出了基于面向对象的分布式遥感数据存储模型,该模型采用直接寻址方式存取遥感原始数据、遥感产品及☪衍生数据,使用对象-关系型数据库,对数据进行抽象转换和特征提取,结合一致性哈希算法及虚拟化存储技术提出动态分配策略,将数据尽可能均匀地分配到各存储节点,解决节点新增退出时造成的大量数据迁移问题,并将RSDO 模型应用到高分辨率遥感数据分发服务系统.该系统已经在国家高分辨率对地观测系统河南数据与应用中心部署并投入使用,从而也验证了该模型的适用性.

1 基于面向对象的分布式遥感数据存储模型

1.1 多源遥感数据及衍生数据

原始遥感影像数据的来源是多样的,是由各型号高分遥感卫星、无人机等航空遥感传感器拍摄的不同时间分辨率、不同空间分辨率、不同谱段分辨率的未经处理的影像数据.例如中高分辨率的栅格影像图片、航空照片胶片文件及其扫描文件等.而基于原始影像数据产生的多样化遥感衍生数据则包含了经过生产

处理后的遥感影像产品数据和遥感信息产品数据.处理后的遥感影像产品数据,如遥感影像1-6级产品、数字栅格地图、矢量电子地图等.遥感信息产品数据包含了基础地理数据和基础空间数据,基础地理数据是包括水系、道路、居民地等基础地形图要素的数据,以及利用遥感影像,提取地表资源要素信息,经过复杂的加工制作形成的专题矢量信息数据,如土地利用类型、林地资源、河流分布等,数据形式是矢量点线面,同时关联大量专题属性数据;而基础空间数据就是以基础地理数据为空间参考,进行标绘形成的相应矢量图层.

1.2 遥感数据的抽象和转换

多源遥感影像数据及其衍生数据可以看作是客观世界中的实体在空间的抽象,时间和空间是遥感数据的基本要素,因此首先要对其统一时空基准[9].统一时间基准是为了解决不同数据时间不一致的问题,方式是定义一个标准时间,使任何其他时间都能够有效、准确地与标准时间相互转换.统一空间基准,则是将多源异构的遥感数据统一到一个坐标系中.将时空基准统一,多源异构的遥感数据在时空维度上才是一致的、有意义的.

遥感数据对象从数据格式来区分,有下面三种形式:遥感影ฑ像原始数据对象和一些经过大气校正、正射校正、辐射校正、几何校正的初级遥感产品数据对象,通常是遥感影像与相关描述文件打包在一起的大文件形式;遥感影像产品数据对象是经过对遥感原始数据复杂处理的遥感影像,一般为TIFF、JPEG等图片文件形式;遥感信息产品数据是由点、线、面和组合体来表述的地理实体空间分布,所以是矢量数据文件形式.本文以面向对象的思想为基础,以时空对象的描述为主体,结合遥感影像数据及衍生数据特点,设计了数据模型对象:

其中Object RawImage表示遥感原始数据及初级遥感产品数据对象;Object Image表示遥感影像产品数据对象;Object Vector表示矢量数据对象;ETL转换器对象.该数据模型中多种数据源按照各自的投影和坐标体系存储,而应用时所有的数据源可以动态的通过ETL[10]转换到统一的参考系上,转换时不需要数据源本身的投影转换,仅从应用层进行动态转换,进而可在统一的坐标体系下进行空间数据的浏览、分析和处理,所有分析和处理的最终结果都按照原有的参考体系保存.

1.3 遥感数据的存储

分布式环境下,虚拟化技术不仅可以提高资源的利用率,同时其可管理性还能使数据动态迁移更为简单.本文RSDO模型结合虚拟化技术存储管理遥感数据,使遥感数据直接寻址方法能更好地支持分布式存储架构.首先需要将分布式环境中物理存储节点虚拟为多个服务器,每个虚拟服务器管理各自的虚拟磁盘空间,然后通过相应算法将遥感数据均匀地分配到各虚拟服务器节点中存储.虚拟服务器继承物理服务器一定的计算能力,对虚拟存储节点当前存储情况、运行状态等实时监控,并支持大流量并发访问,大大提高硬件资源的利用率.

虚拟服务器内部,采用虚拟化存储与✡直接寻址相结合的方式管理数据.其中遥感原始影像数据和初级遥感产品数据的储存只需按照卫星拍摄幅宽选择一种球面网格剖分标准,对原始数据仅做逻辑上的切分,数据本身不做任何处理,然后根据影像中心经纬度所在位置确定数据存入的行列编号.同时,存储组织结构需加一级行/列编号目录,数据最终以景为编号存储在行/列编号目录下.在提取数据时,系统根据原始数据的描述文件将符合条件的所有数据以矢量框的形式标注在界面上,用户可以通过快视图、拇指图预览并选择需要数据,也可以直接订购所有原始数据,这样在分布式环境下遥感原始数据的存取也可以支持直接寻址法,使模型更具有通用性.遥感影像产品数据与遥感信息产品数据叠加运用,具有天然的互补优势.所以对这两种数据均采用标准金字塔模型组织,.这种存储方式使用户或者展示系统在获取遥感数据时,存储节点可以通过标准算法迅速定位数据,最大限度地缩短检索时间.

1.4 基于一致性哈希改进算法的数据动态分配策略

分布式环境中,现有模型通常使用简单的哈希取模法将遥感数据分配到各存储节点,如赖积保的RSC-DOM 将遥感影像切片行列号相加之后与存储空间总数做取模运算%M ,从而确定遥感影像数据存储位置.但是由于遥感数据并不能达到全球影像统一均匀采集,往往某一地区会叠加巨量的多时相影像,而部分地区只有极少的影像数据,而遥感影像数据分层切片后,它的行列号是固定的,因此在实际存储时,会导致部分存储节点存储满载,另外一些存储节点几乎空载的情况,造成存储资源的浪费.同时当有存储节点新加或退出时,原有存储位置定位公式会演变为%,这时会导致大量遥感数据存储位置迁移,严重影响系统性能.为解决现有模型存在的缺陷,本文RSDO模型将一致性哈希算法[11]应用到分布式虚拟存储,提出虚拟化存储节点动态分配策略.

首先对分布式环境物理服务器虚拟化,使每个物理节点分别对应多个虚拟节点,每个虚拟节点对应一个物理节点,然后将存储系统的一致性哈希环形存储空间分为N等份,根据一致性哈希原则将哈希存储地址空间以N 为基本单位顺时针均匀地分配给虚拟节点.接着判断数据的存储位置,先提取遥感数据对象特征key,将key带入一致性哈希函数中,计算得出哈希值h=hash.在环形哈希空间中h 的对应位置所属的节点即为key对应遥感数据存放的存储节点. 9个遥感数据对象ObjectRS与6个虚拟存储节点通过一致性哈希算法得出的分布图,其中OBJRSkey9在虚拟节点A2与虚拟节点B2之间,按照一致性哈希原则数据以顺时针方向寻找离其最近的节点存储,所以ObjectRS9分配存储在虚拟节点B2中,同理ObjectRS1、ObjectRS9存储在虚拟节点A3中,ObjectRS8存储在虚拟节点A1中,ObjectRS4、ObjectRS6存储在虚拟节点B1中,ObjectRS3、ObjectRS5存储在虚拟节点B3中,ObjectRS7存储在虚拟节点A2中.当存储服务器宕机或其他原因导致存储节点退出时,只需将退出节点前后两段哈希空间合并,将属于退出存储节点的遥感数据顺时针分配给合并后的存储节点即可,存储节点A2退出,只需将OBJRSkey7分配到存储节点B2即可,其他遥感数据并不受影响.当新增存储节点时,将原有两个存储节点之间的哈希空间分裂后分配给新增存储节点.这样在分布式环境中存储服务器出现变动时,不会造成大量的数据迁移工作,只需要维护出现变动的存储节点所属的部分遥感数据即可.应用一致性哈希算法之后,从理论上解决了遥感数据均匀存储问题,但是其前提是所有存储节点性能相同,而实际分布式环境中,硬件资源通常存在差异,如新加入的物理服务器往往具备更优秀的计算能力,更大的带宽吞吐量,更多的存储空间等.针对这一问题,本文提出存储节点动态分配策略.量化物理服务器极限性能,与集群服务器整体性能作比较得出一个权重阀值然后统计服务器实际性能利用率,求出服务器当前的负载权重阀值.随着数据量增大,会逐渐增大,在这个过程中适当的增加物理服务器对应的虚拟服务器存储节点,一直到无限接近或等于,此时服务器达到最大负载量,不再继续增加虚拟存储节点,最终性能更好的服务器会虚拟更多的存储节点,承担更多的负载量♂,不同等级的硬件资源均得到最大化的利用,使系统达到理想的负载均衡,提高模型整体性能.

1.5 RSDO模型的构建

基于面向对象、分布式环境虚拟化存储结构对多源遥感数据进行RSDO模型构建,如图6所示.

对数据中心从不同数据源接收到的多源异构遥感数据及衍生数据按照数据类型分类,通过ETL转换技术将多源、多尺度、多时相的遥感数据统一时空基准,然后基于面向对象的思想,以时空对象的描述为主体抽象出遥感数据对象ObjectRS.

抽取遥感数据ObjectRS特征key,作为分配到各服务器存储的分散因子,如提取遥感数据年月日时间特征以及数据所在全球剖分网格行列号等空间特征.

结合一致性哈希算法以分布式环境虚拟化服务器做为数据存储核心,应用动态分配策略将虚拟化服务器动态地分配到一致性哈希环形空间.然后依据抽取的特征信息key将遥感数据均匀地分配到各虚拟存储服务器.

虚拟服务器存储节点内部使用面向对象数据库Postgresql收集、管理、同时与主控平台交换遥感数据语义属性信息、元数据信息等,虚拟磁盘空间以支持直接寻址法的文件目录结构存储遥感实体数据,使系统通过标准算法可以对遥感数据直接存取,同时通过面向对象数据库建立索引支持对遥感数据的并发模糊检索.

分布式服务器管理平台负责对各个物理服务器性能统计监控,映射关系管理,容灾管理等.同时使用面向对象数据库接收、维护各存储节点遥感数据元数据信息,并向各存储节点分发检索、数据提取等任务.

2 实验

实验环境由1台主控服务器和6台存储服务器组成.主控平台采用某国产服务器,主要配置为:2*intelXeon CPU,均为6核心12线程2.1GHz;内存64GB;硬盘8TB 7 200转/min;千兆网络接口.6台存储服务器采用普通PC机,主要配置为:1*Intel Xeon,CPU 4核心3.3GHz;内存8GB;硬盘1TB 7 200转/min;千兆网络接口.涉及到的操作系统和软件包括:Windows Server 2012、Windows 7、VS2012、Postgresql等.

2.1 均衡性测试

实验分别实现了RSDO架构与RSC-DOM 架构.模拟环境中,两种模型架构均设置25个虚拟存储节点,然后将870多万条遥感数据分别存入两个系统.数据分组逐渐存入,在这一过程中统计并记录各虚拟存储节点存入数据的情况,最终汇总生成柱形图..可以看出RSDO模型架构基本将遥感数据均匀地分配在了各虚拟节点,每个虚拟节点存入数据量相差不大,基本在合理的区间范围.而RSC-DOM 模型每个虚拟节点存入数据差别很大,这是由于在实际应用中,真实的遥感数据分布是不均匀的,热点地区累计有多年大量的数据,非热点地区只有少量数据,介于RSC-DOM 模型在数据分配上存在的缺陷最终导致这一情况发生.并且从图中我们可以分析出,如果数据量持续增长,在总数据量远小于总存储空间的前提下RSC-DOM 模型系统最终依然可能出现个别虚拟节点数据溢出的情况.RSDO模型凭借良好的动态分配策略改善了这一缺陷,数据均匀分配也使系统更容易实现负载均衡.

2.2 性能测试

实验设计三种方案作对比.方案1,采用RSDO模型架构;方案2采用RSC-DOM 模型架构;方案3采用关系型数据库Oracle与分布式文件系统相结合的架构.三种方案均存储800多万条遥感数据,然后分别执行不同量级的检索任务,统计并记录检索时间.,RSDO模型在数据量较低时与RSC-DOM 相比检索效率并没有明显的区别,但是随着检索数据量的增加RSDO在性能上有了很大提升.而依赖关系型数据库Oracle的分布式文件存储方案,由于受制于关系型数据库自身的制约,在检索效率方面始终落后于前两种模型,尤其当数据量增大时更为明显.正是由于RSDO模型在数据存储方面更均衡合理,使所有硬件资源都得到了有效利用,各存储节点互不干扰的同时并行处理数据存取检索任务,这也继承并强化了分布式存储的优点,从而大幅度提高其检索效率.

2.3 数据分发服务系统

数据分发服务系统,是河南省各级政府部门及企事业单位用户访问数据中心资源的统一入口,利用门户对外提供的数据资源编目服务进行检索,查询各类卫星资源数据,了解所关注数据的基本形态.同时,利用对数据属性特征的分类、整合,形成专题数据集便于用户快速了解获取所关注的数据,RSDO模型的应用保证了数据中心接收的多源卫星数据的高效存储,以及每日大量的数据分发服务.

3 小结

分布式存储架构对大数据具有高效存取和高并发共享服务的特点,因而成为海量遥感数据管理的首选架构.本文提出了一种基于面向对象的分布式遥感数据存储模型RSDO,利用面向对象思想对多源异构的遥感数据分类,统一时空基准,使多源遥感数据标准化.然后建立支持分布式虚拟化技术的遥感数据直接寻址法目录组织结构,结合一致性哈希算法将遥感数据均匀的分配在分布式环境下的各虚拟存储节点,最后应用虚拟服务器动态分配策略,优化了分布式环境物理硬件资源.实验结果表明本文模型实现了遥感数据的均衡分配,提升了检索效率,在高分辨率遥感数据分发服务系统中的应用也验证模型的实用性及可靠性.


热门排行: 教你如何写建议书