基于DOM的智能网页信息抽取技术研究
随着Internet的快速发展,Web已经发展成为一种巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由HTML描述的Web页面只适合人类的浏览,应用程序无法直接解析并利用Web上的丰富信息。Web中一类重要的信息网页是数据提供网站的动态Web页面,如各种门户新闻网站、电子商务网站等等。这类网页中自由文本数据少,网页结构化程度高,往往数量巨大且内容丰富,因而信息抽取工作非常有价值。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。为了增强Web数据的可用性,提供更多的增值服务,出现了Web信息抽取技术。它通过包装(Wrapper)现有的Web信息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。
本文设计了一个基于DOM模型的智能网页信息自动抽取系统,做到能够对网页文本进行分析处理、特征提取与选择、文本分类以及页面区域的分割与重构等,从而将抽取的有用信息以结构化数据存储在数据库中,并且可以随时应用于针对特定信息查询的应用程序中。
首先,本文简述了信息抽取技术的研究与发展,对几种典型的Web信息抽取技术进行了综合比较,然后详细介绍了DOM模型的理论和编程实践以及文本分类技术。
接下来,本文详细阐述了网页主体信息抽取的体系结构、设计方法和处理流程。首先讨论了基于DOM分析器的文本预处理的解决方案,然后使用信息增益作为特征评估函数,以它的值作为评估函数值,用以对网页文本进行特征项加权,进行文本特征提取。在文本自动分类的章节中,介绍了使用KNN-SVM算法进行自动分类,并介绍了利用映射表进行页面区域分割,再根据内容相关性进行页面重构。
最后,文章给出了基于DOM的智能网页信息抽取系统的原型,取得了较好的实验结果。从一系列动态网站提供的Web网页的抽取实验,以及与其他一些通过多个页面的信息抽取的算法的结果对比可以看出,本文提出的Web信息抽取技术实现了较高的抽取精度。
DOM;信息抽取;智能网页
中国海洋大学
硕士
计算机应用技术
魏志强
2009
中文
TP391
53
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)