主题相关的PageRank算法的改进策略的研究和实现
随着网络技术的迅猛发展,WWW已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。Web具有四个特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,Web还包含丰富和动态的超链接资源。面对Web这些固有特点,人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web自身的链接结构模式,通过分析和研究PageRank、HITS等基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。
本文主要针对目前主流的PageRank算法,集中研究了PageRank算法的形成思路、计算方法等。在实现了PageRank算法的基础上,针对PageRank算法在基于Ontology的海洋文献智能信息检索系统应用中的缺陷,对PageRank算法加以改进,在算法中增加了文本文档可能性的判断和主题相关性的判断,提出了IPageRank算法,并实现该算法。
由于现在网络资源的繁多,为了提高系统的查准率,本文引入了Ontology技术(本体技术),设计并实现了基于本体的海洋领域智能文献信息检索系统,分析了传统网络信息检索方面的在知识检索中准确率不高的缺点,提出了基于ontology的海洋领域智能文献信息检索系统的实现结构框架,将IpageRank算法应用于基于Ontology的海洋文献智能信息检索系统中,并做出验证。
经实验证明,算法IPageRank有效提高了该系统检索准确性和有效性,验证了所提出的IPageRank算法理论的合理性,验证了算法在海洋文献智能信息检索系统的应用中的正确性。
搜索引擎;PageRank算法;主题相关;本体技术
中国海洋大学
硕士
计算机软件与理论
姚文琳
2009
中文
TP301.6
81
2009-10-19(万方平台首次上网日期,不代表论文的发表时间)