学位专题

<
DOI:10.7666/d.y1503125

基于Text2Onto的中文本体学习技术研究

桑爱菊
中国海洋大学
引用
随着新一代互联网——语义Web——研究的不断深入,本体(ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。本体的手工构建是一项繁琐而辛苦的任务,极易导致知识获取的瓶颈。因此,Web本体的可获取性已被学术界公认为是制约语义Web成功的巨大挑战之一,能否减低本体构建成本,实现本体的半自动自动构建逐渐成为本体研究的一个关键问题。从现有信息源,包括文本、词典、遗留知识库、WWW文档等,获取领域知识、以自动方式构建或扩充本体,即所谓的本体学习(OntologyLearning),是开发本体的有效途径。 相应的,对于语义Web在中国的推广和应用而言,中文本体的获取是非常重要的。如何从现有的各领域的大量中文文献中获取本体,同时提高所得本体的质量使其能被有效利用,成为语义Web在中文环境下推广的一个重要课题。 本文在Text20nto框架下,针对中文的特点及中西文之间的差别围绕中文本体的获取技术展开了讨论和研究,其中利用了ICTCLAS分词工具。首先我们介绍了Text20nto的优点、系统架构,工作原理及关键的算法。然后针对中文本体学习这一领域存在的问题提出了基于Text20nto的中文本体学习技术框架,并对这个框架下的几个关键的技术问题,包括中文语料预处理、术语概念抽取、语义关系抽取,分别作了更为详细的介绍,给出了中文术语概念抽取及过滤的具体算法。最后,分析了现有本体学习系统的体系结构,在Text20nto的基础上整合了中文分词,加入中文概念抽取及过滤算法,实现了中文本体学习系统框架。 通过实验,我们认为基于Text20nto的中文本体学习技术研究是对中文本体获取的一次非常有意义的尝试,初步解决了中文术语概念的抽取及过滤问题,并为后续的中文本体学习技术研究打下了良好的基础。

Text2Onto;本体学习技术;中文本体学习

中国海洋大学

硕士

计算机软件与理论

徐建良

2009

中文

TP391.1

64

2009-09-28(万方平台首次上网日期,不代表论文的发表时间)