极小化标注的海洋文献复杂分类
文本自动分类是数据挖掘和机器学习中非常重要的研究领域,本文将文本自动分类技术应用于海洋信息处理,主要研究通过机器学习的方法解决海洋文献分类问题。随着海洋科学和信息技术的发展,海洋科学领域的文献资料大量涌现,使得对其的检索和分类成为急需解决的问题,而人工的信息处理既低效又耗时,于是海洋文本分类当前面临的问题就是一方面人工标注样本成本高且数量有限,另一方面大量极易获得的无标注样本无法得到有效的利用,而无标注样本中的分布信息对我们的文本分类也是有很大帮助的。为此我们引入了机器学习中的半监督学习和主动学习来解决这一问题。
传统的机器学习方式分为有监督和无监督两种。有监督机器学习需要较大的已标注样本集,无监督机器学习无法应用少量珍贵的已标注样本且分类效果较差。相比之下,半监督学习具有极大的优越性,可以同时利用少量的有标注样本和大量的无标注样本进行学习,因此我们利用半监督学习中的Co-training算法进行海洋文本分类,构建极小化标注的海洋文本分类系统,通过合理的参数设定,从而达到良好的分类效果。
半监督学习在训练时难免会有噪音,从而产生结果偏置的情况,主动学习可以通过选择样本来降低学习模型的偏置和方差。主动学习的研究重点在于学习系统如何利用自身主动学习的能力,以尽可能少的步骤和尽可能低的标注代价实现分类性能的有效提升。本文将半监督学习与主动学习相结合,通过主动学习方法的引入来进一步提高极小化的海洋文本分类系统的性能。
本文的目的在于构建一个基于极小化标注的海洋文献复杂分类系统,其完成的功能主要包括:
(1)海洋文献与非海洋文献之间的是非分类,这属于文本分类的二分类。
(2)海洋文献精细分类。将海洋文献自动分类到各个子类别中,属于文本分类的多分类。
(3)极小化标注的海洋文献分类。通过引入半监督学习,我们构建了极小化标注的海洋文献分类系统,同时为了提高分类的准确率,我们考虑通过将半监督学习与主动学习相结合的方式实现海洋文献的精细分类。
该系统的实现有利于提高海洋文献的检索效率,有助于整合海洋领域文献以利于涉海领域资源的有效利用。
海洋文献;文本自动分类;Co-training算法;极小化标注;系统性能
中国海洋大学
硕士
计算机软件与理论
张巍
2011
中文
P717;TP391.1
69
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)