关于数据仓库元数据管理系统的研究与建立
如今很多行业的企业都逐渐意识到,熟练、有效的运用从企业内部获取的信息是实现卓越绩效的关键。甚至有人说,很多数据金矿其实都隐藏在公司的基础运营中,如果把它们挖掘出来,就能够在纷杂的竞争中略胜一筹。
现在很多企业都建立了越来越多的业务系统,收集了不同层面和内容的企业内部信息。随着数据仓库技术的不断探索、发展和应用,许多企业已经建成或正在着手建立数据仓库项目,收集、整合数据,运转分析他们的重要业务,以期待发掘他们信息数据更深层的价值。
但是,从整个行业来看,这些项目很多并未能取得实质性的突破和胜利。究其原因,主要是因为数据质量太差制约了分析方法价值的发挥。而提升数据质量必须首先保证数据的正确性、明确性、完整性和一致性,即保证数据属性的质量。这使人们逐渐认识到元数据管理和应用的重要性,并开始投入越来越多的资源探索元数据管理和应用之道。
本课题以潍柴集团数据仓库项目建设为契机,从数据仓库建设的实际应用出发,在对元数据性质的分析和研究的基础上,找寻一种有效而通用的元数据管理模式,构建了一个符合潍柴数据仓库实际应用的元数据管理系统。
本文首先主要研究了数据仓库及元数据的概念、分类、应用。数据仓库是以关系数据库、并行处理和分布式技术为基础的信息新技术。它是一个用以更好地支持企业或组织的决策分析处理、面向主题的、集成的、稳定的、不随时间不断变化的数据集合,用来支持企业经营管理中的决策制定过程。元数据是关于数据的数据,是数据仓库的一个重要组成部分。它描述了数据的属性信息,包括数据的内容、意义、质量、状况以及其他特性。同时也描述了数据仓库内数据的属性和含义,定义了数据的结构、模式、建立方法、来源和抽取、转换规则等,是数据仓库中数据资源的使用指南。从不同角度可以将元数据不同的类别,通常按其用户或用途将其分为技术元数据和业务元数据。
本文另外还论述了对元数据管理的方式方法、策略和规范。元数据管理的根本目的是为了提升数据的质量。具体首先是数据仓库建模工具、数据获取工具、前端展现工具等之间的数据传递、交互与整合,另外就是负责存储和维护数据仓库中的元数据,使之能够稳定而准确的协调各模块和工具之间的工作。本文结合数据仓库项目需求实际,在对元数据质量要求深入分析的基础上,探讨了元数据管理的目的、范围与现状,深入分析了元数据管理的规则、标准、成熟度以及元数据管理的策略与规划,同时对元数据模型的结构、特征、应用也做了简要的论述。
本文最后借助潍柴数据仓库元数据管理系统的建立,详细阐述了运用系统实现元数据自动化管理的构建方法、策略与实现方式。包括元数据管理系统设计的目的和原则、功能设计与架构设计的内容、管理工具选型的标准与依据,以及最终系统实施的策略、方法和步骤。
数据仓库;元数据管理;并行处理;需求分析
中国海洋大学
硕士
计算机科学与技术
徐建良;左常成
2011
中文
TP311.131
66
2012-12-27(万方平台首次上网日期,不代表论文的发表时间)