Hadoop架构下地理信息存储与计算关键技术研究
在当前社会环境中,随着计算机视觉、虚拟现实、三维可视化等技术的发展,地学可视化研究已逐渐彰显出不凡的生命力,与此同时网络技术与云计算也正在蓬勃发展,渗入人们生活的各个角落。在此背景下,分布式地理信息系统的研究应运而生,旨在将整个处理任务按最优策略分配到计算机集群中达到合理高效使用资源的目的。传统的桌面GIS采用集中式存储模式容易导致单点资源瓶颈,数据无法共享等问题,阻碍了地理信息技术的进一步发展与应用。三维地理信息系统使用的空间数据具有海量特征,随着数据采集技术的进步,其数据量可以达到TB甚至PB级以上。在网络环境下,原有的解决方案不能很好地满足对这些空间数据的存储、管理、调度,且在此背景下,数据的高效传输也面临严峻的挑战。 云计算概念的提出与发展给我们提供了一条行之有效的解决方案,我们可以采用云计算中分布式存储及并行计算的概念来解决数据存储调度的问题。本文对国内外现有分布式存储系统进行对比分析,选定Hadoop作为本文分布式存储的框架。Hadoop以HDFS作为分布式框架中的基础文件系统,采用MapReduce提供一个并行编程模型对数据进行并行处理,简化程序开发过程。可在商用硬件上搭建Hadoop集群,通过内部节点间监控与反馈机制实现高容错、高吞吐量、高并发效率,提供可靠高效的数据服务,同时Hadoop框架易于扩展,读写性能良好。因此采用Hadoop作为构建海陆一体空间数据共享服务的基础框架是一种行之有效的方案。论文的主要研究内容如下: 首先,本文分析了在互联网发展迅速的背景下,科技促进传统地理学衍生出虚拟地理环境概念,而获取地理数据的手段日渐丰富,采集的数据逐渐增多,在此种情形下,传统数据共享方式受到限制,而国内外均开始研发基于海量数据的虚拟信息系统,基于此本文提出基于Hadoop的海量空间数据存储方案,作为构建海陆一体空间数据共享服务的技术支持。 其次,本文分析了空间数据中数据量最大的影像数据的存取需求,提出构建影像金字塔为用户提供高效流畅数据调取服务,基于Hadoop的MapReduce并行编程模型构建影像金字塔,为达到高效管理的目的将数据按自定义格式进行组织。针对互联网高并发的特性,提出利用Nginx搭建数据共享服务以满足数据访问时的负载均衡。 然后,本文对地理信息数据中专题数据进行存储与计算模型研究,并以城市公交数据为例研究数据的信息处理。基于Hadoop的数据库HBase对公交数据进行存储,设计了专题数据查询的Map/Reduce算法,提取并分析专题数据信息。
地理信息系统;数据存储;计算模型;分布式技术
中国海洋大学
硕士
地图学与地理信息系统
韩勇;章珂
2015
中文
P208
60
2016-01-27(万方平台首次上网日期,不代表论文的发表时间)