基于视觉信息的Deep Web信息自动抽取技术的研究
随着互联网技术日新月异的发展,web已经成为一个巨大的信息源,拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛,如:金融、医疗保险、市场分析等。通过分析挖掘得到的数据,可以获得许多有用知识,最大程度的进行辅助决策。然而,Web数据的特点是数量多,形式异构,自治的,分布存储,这使得 Web数据挖掘的分析工作变得尤为困难,所以当务之急是对数据进行集成,为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”,可以将web分为Surface Web和Deep Web。在数量和质量上,Deep Web远远超过了Surface Web,具有较高的应用价值。因此,如何进行抽取Deep Web中的数据,以便于更有效的分析,具有重要的现实意义和广阔的应用前景。Internet上的各个网站的信息相互独立,Deep Web数据收集起来十分困难,在这种情况下,通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高,但技术门槛低,而且由于信息源的多元性和改版的潜在风险,手工方法无法满足人们对信息获取的需求。在这样的背景下,可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题,本文在Deep Web信息自动抽取技术方面,包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面,进行了深入而系统的研究,同时开发了Web信息自动抽取系统。 本研究主要内容包括:⑴基于页面中的视觉信息,分割网页得到视觉块树,然后在视觉块树上,整合数据区域判定所需的视觉属性,得到进行实验的训练集。⑵使用机器学习的有效工具进行训练,结合人工编写的规则进行去重去噪,准确地完成了Deep Web数据区域的查找和定位。⑶提出了有效的对齐规则,大大提高了数据项的对齐准确率。⑷在以上研究内容的基础上,设计开发了Deep Web信息自动抽取系统,系统实现功能包括:网页视觉块树的转换;数据区域的自动定位;数据项的完整抽取与对齐;生成Wrapper;实现了自动翻页功能。
数据挖掘;视频检索;图像处理;机器学习
中国海洋大学
硕士
计算机应用技术
张巍
2013
中文
TP311.13;TP317.4
63
2015-04-01(万方平台首次上网日期,不代表论文的发表时间)