基于Web搜索和网页结构分析的IT相关主题新闻抓取研究
新闻是和人们日常工作娱乐生活相关性很强的信息,对于有影响的新闻事件,深度与跨度较大的主题新闻则更具知识性趣味性,所谓主题新闻,以其及时性突出新闻的“新”,以其时间跨度大突出“主题”和专题,讲求一个“深”。近几年来,互联网成为新闻信息发布的最好平台和最大来源,各种新闻以各种形式在网上快速传播。另一方面互联网上信息的爆炸式增长,使得手工方式获取更多更全的新闻内容越来越难,而作为信息获取方案之一的搜索引擎技术取得了长足的进步,以Google为代表的搜索引擎将触角伸进互联网上信息的角角落落。如何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大,通过搜索引擎挖掘深入全面的新闻信息,是本文的研究重点,即通过进一步挖掘和某一主题相关的新闻内容,形成主题新闻。
IT新闻抓取的过程,本质上是Web数据挖掘的过程。挖掘中首先对2009年热点的新闻样本进行归类和分析,在样本分类的基础上,找出各样本的特点,提出行业角色模型(Trade-role Model)。此模型的提出是在与基于用户兴趣的搜索模型对照分析的基础上完成的,最终形成一个行业角色评分公式以对样本进行评价。以此模型为基础,在本文中主题新闻抓取通过两步实现。第一步,变换关键词搜索并对搜索引擎搜索结果URL提取。此步是本文研究工作的基础,提取的质量直接决定后续工作的成败。通过对搜索引擎中Google的搜索特点的研究,在几种方案中选择利用本机程序实现对其搜索结果的利用,通过基于行业角色的模型将URL链接进行比较,通过分值对这些链接进行评价与筛选,此步将大部分垃圾或无用的链接去除,保留了与新闻主题相关的链接,并选择了分值最高的一些为后面使用。第二步,URL对应的新闻正文提取。此步是本文的最终研究成果,通过对前一步中筛选后搜索到的URL链接对应的页面进行分析,提取网页对应的文本文件,通过行业角色模型进行文本挖掘,利用TRM模型以段落为基础评价得分,最后对各段落动态平衡,利用上面的分值和新闻网页的特点比较取舍,提取其中相应新闻正文内容。从新闻样本抓取的最终结果看,平均查准率达到90.2%,平均查全率达到72.8%。最终抓取的新闻正文,也最后形成主题新闻的文字正文。
由于手工提炼互联网上的新闻要耗费大量的人力,通过利用搜索引擎的结果和程序的方式提炼出相关的新闻内容,会节约大量人力资源,并使新闻事件迅速全方位呈现在网络受众面前,这也是本文研究的价值所在。
主题新闻;搜索引擎;行业角色模型;文本挖掘
中国海洋大学
硕士
计算机应用技术
张巍
2010
中文
TP393.0
65
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)