基于热点网站内容分析的超链接提取研究
互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站的热度。
本文首先介绍了网页信息提取技术概述及发展历史和现状,分析了网页信息提取技术分类和常用算法,对网页信息提取技术进行了相关阐述。其次,对热点网站页面内容特点进行了分析,主要包括热点网站及热点网站体育NBA特点、搜狐与网易NBA页面特点及比较、从网页语言特点分析热点网站、热点内容分析与内部关系等。通过对比,总结出NBA类热点网站内容的特点,而这些特点非常适合通过一些HTML解析器来分析处理。通过对比主流HTML解析器的特点,阐述了HTML Parser在解析热点网页上的优势,通过对热点网页采集的实现,进一步验证了网页的内部组成结构及其构成特点等,提出了一种基于HTML Parser。的热点双反馈URL及正文提取策略:首先通过HTML Parser提取网页的URL,然后从URL中提取正文,通过提取的正文反馈URL的热度,再通过URL反馈整个网页的热度。
最后,本文实现了基于HTML Parser的网站超链接信息提取。论文中主要介绍了利用两种算法实现热点网站超链接及正文文本信息的提取。系统运行结果及有效性评价主要通过查询搜狐体育NBA和网易体育NBA提取的结果,测试准确率和召回率两个性能指标,比较两个热点网站的链接提取效果,并通过URL与正文信息反馈网站的热度。
本文正在研究的基于热点网站内容分析的超链接提取已经实现了对简单网页的解析,能够过滤掉一些垃圾信息、去除噪音,但对于是否能真正满足用户要求,提高解析出的有用信息的可操作性,还需要进一步去研究。
信息提取;网页解析;正文反馈网站;超链接
中国海洋大学
硕士
计算机应用技术
张巍
2010
中文
TP393.0
60
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)