学位专题

目录>
<

基于CEF的页面分割算法的研究

朱冰阳
中国海洋大学
引用
当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。  为了提高效率,本文选择在CEF(Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。  本文主要工作如下:  (1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。  (2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。  (3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。  实验表明,本文提出的方法可以有效的对页面进行视觉块划分。

计算机网络;网页分割算法;视觉信息;嵌入式Chromium框架

中国海洋大学

硕士

计算机技术

张巍

2015

中文

TP393.092

63

2016-01-27(万方平台首次上网日期,不代表论文的发表时间)