基于数据库集群的海洋环境数据优化存储与分布式管理
由于卫星遥感等海洋探测技术的快速发展,所获得的海洋数据呈爆炸趋势增长,数据量高达几百GB甚至于TB级的海量海洋数据库应用已经出现。海洋环境数据存在着多源多格式、数据量大的特点,而基于互联网或局域网对这些数据的访问又有速度、效率、可用性等方面的要求。本文针对这些问题,研究海量数据优化存储方法以及基于数据库集群的分布式数据管理技术,提高海洋数据管理的整体性能和系统的可靠性。论文的主要研究内容和成果如下:
1.海洋环境数据优化存储研究
由于海洋环境数据应用具有面向查询的特点,查询效率和存储空间占用量是进行海洋环境数据库建设所要考虑的最重要的因素。基于这种实际需求,对海洋数据优化存储进行研究,研究包括三个方面:改造传统关系存储模式;研究数据分片方法;研究相应的数据操作方法。
本文提出了一种新的类似网格结构的关系模式Grid_R来管理海洋数据,该结构类似数据采集的实际地理经纬度网格,除了时间,纬度,将所有的经度直接作为属性列。数据分片方法以及相应的数据操作方法研究均基于Grid_R数据组织结构。通过存储与组织的优化减少了数据库的数据冗余,磁盘空间占用量不到传统方法的1/4,减少了网络传输时的数据量,在某种意义上实现了数据压缩。单表查询效率比传统方法提高了4倍以上。
2.基于数据库集群技术的海量数据分布式管理研究
传统的集中式数据库系统难以有效支持基于WEB的海洋地理信息系统功能。随着数据库请求不断增加,查询方式的日益复杂,数据库服务器的负载增加,响应单个请求的速度越来越慢,对系统的稳定运行带来了不利影响。海量数据也对单服务器的存储能力提出挑战。
本文将数据库集群技术应用于海洋环境数据的管理,提出使用基于中间件的数据库集群实现海量数据的分布式管理,将数据分布于不同的数据库节点上,集群中间件系统负责各节点的协作与并行处理,可以获得高性能、高可用性、高可扩展性,突破传统的集中式数据库服务器上的DBMS所固有的性能瓶颈限制。
3.海洋环境数据库集群关键技术研究
基于优化存储结构和分布式管理策略,对数据库集群数据分布、负载均衡以及并行查询等关键技术进行研究:
提出了一种新的数据分布算法:两步分布法,将数据集分为分片数据集和复制数据集,两步分布法即先均匀分布分片数据集、再按异构节点资源权值分布复制数据集,在保证相邻数据分布在不同节点的基础上,使数据分布尽量达到均衡;
提出了一种基于数据复制的动态负载均衡算法来平衡集群的负载,以达到提高整体性能的目标,并解决了局部节点过热和集群可用性问题;
提出了一种并行查询算法来实现用户对集群的透明查询,将用户的全局查询进行解析,根据元数据将全局查询转化对各节点的本地查询,调用负载均衡获得最佳查询节点,然后在各节点并行执行查询,最后进行重构得到最终结果,并将结果返回用户。
根据研究成果,基于海洋大气地理信息系统MAGIS(MarineandAtmosphericGeographicalInformationSystem)平台软件,建设了多节点海洋环境数据库集群,并开发了集群中间件分布式海洋数据管理器,实现了海洋数据的优化存储与分布式管理,提高了系统的整体性能和可靠性。
卫星遥感;海洋探测;分布式管理;海洋环境数据;数据库集群;海洋地理信息系统;并行查询
中国海洋大学
博士
海洋信息探测与处理
陈戈
2008
中文
TP399;P71
102
2009-10-19(万方平台首次上网日期,不代表论文的发表时间)