海洋环境数据仓库与数据挖掘应用研究
“数字海洋”是由海量、多分辨率、多时相、多类型海洋立体监测数据及其分析算法和模型构建而成的总体海洋系统。海洋环境数据仓库是国家“数字海洋”基础数据平台的一部分,它将多源、异构、分散的海量海洋环境数据集成到一起,从而更好地为海洋研究与管理、实现海洋的可持续发展服务。课题的研究将为构建我国近海“数字海洋”奠定坚实的数据框架及理论基础。 本文对海洋环境数据体系规划、数据建模、数据仓库构建技术,以及对集成后的数据仓库进行OLAP及数据挖掘技术等进行了深入的研究,系统化地提出了一个海洋环境数据从集成、应用、分析的完整框架。 针对海洋环境数据集成与应用的需求,设计了一个包括数据源、数据加载、数据仓库层、前端应用等四层的海洋环境数据仓库集成与应用框架。其中为满足终端用户对原始数据的需求、部门级用户决策支持需求将数据仓库划分为海洋环境基础数据仓库、海洋环境数据仓库(集成)、数据集市等层次。另外还包括数据仓库管理工具以对整个数据仓库体系进行数据访问、安全等方面的管理。 总结了海洋环境数据的类型及特征,在研究和分析海洋环境数据仓库的构建方法及关键模型的基础上,提出海洋环境数据仓库的体系结构,并对其进行详细的结构设计、主题设计及多维模型设计。海洋环境基础数据仓库存储原始格式的数据,它全面整合历次海洋专项调查、常规海洋调查、业务化海洋环境监测以及国际合作等资料,以满足终端用户对原始数据的需求。基础数据仓库的数据经同构、转换、集成处理后,保持原始粒度(不做统计计算)加载到按多维数据模型组织的海洋环境数据仓库。数据集市根据用户需求创建,它将海洋环境数据仓库的原始粒度数据进行筛选、统计或插值计算后形成多维数据立方体,为OLAP、数据挖掘等应用提供数据支持。 研究了海洋环境数据仓库的性能优化方法并提出了详细优化策略,基于索引优化、分片管理的并发数据访问会大大提高海量海洋环境数据仓库的性能。ETL是数据仓库建设的关键,本文根据海洋环境数据的特点,研究其数据清洗、转换、集成规则,设计并开发了海洋环境数据仓库ETL原型系统。海洋环境数据仓库ETL系统提供了多种数据访问接口,包括:Oracle、DB2、MS Sq1 Server、Access、JDBC、ODBC等数据库来源,格式文本、Excel、XML等平面文件来源。为了保证进入数据仓库中数据的质量,还必须进行严格的数据清洗,根据清洗规则可以过滤掉和修正不符合要求的数据,从而保证了数据质量和未来海洋环境数据分析与决策的正确性。针对海洋环境数据仓库数据量大、历史数据多、更新频度小的特点,研究提出了一套完整的海洋环境数据仓库增量更新的机制,极大提高了海洋环境数据仓库的运行效率。 为了让用户可以从多个角度观察和分析海洋环境数据,研究了海洋环境时空数据立方体的构建方法,通过空间插值及时空插值算法可以按各种粒度将不规则的海洋环境数据格网化,以构建规则的具有时间和空间维的数据立方体。同时可通过各种内置或自定义统计分析函数来计算度量值,从而建立不同度量(或多度量)的海洋环境数据立方体。以海洋水文、气象等领域的数据分析为例,研究如何利用OLAP分析操作来实现海洋环境数据仓库的各种应用需求。 为了发现隐藏在海量海洋环境数据中有用的模式或规律,研究了海洋环境数据仓库的数据挖掘方法及内容,并进行了初步的应用。回归预测通过建立一个回归方程可以用来预测未来的数据趋势,本文利用回归分析建立悬浮体中浓度与浊度的预测模型。利用聚类方法对长江口表层沉积物的元素地球化学进行了分类,将研究区沉积物中的组成元素大体分为3种类型:“亲碎屑元素”、“亲生物元素”和“氧化还原敏感性元素”,并结合地质背景对其成因进行了分析。
海洋环境;数据仓库;数据挖掘;可持续发展
中国海洋大学
博士
海洋地质
翟世奎
2011
中文
TP311.131
112
2012-12-27(万方平台首次上网日期,不代表论文的发表时间)