面向移动页面自适应平台的Web结构特征聚类算法
随着3G移动网络迅速发展以及智能手机的普及,全球已经正式迈入了移动互联网的时代。移动互联网代表的不仅仅是一种生活方式,更是一种产业模式。企业主迫切需要构建自己的WAP网站,使用户随时随地都能访问企业信息。针对传统手工开发模式的费用高、周期长、自适应能力差的缺点,移动页面自适应技术已经成为新的研究热点。
本文在针对现有移动页面自适应解决方案人工可控性差的缺点,提出了一种基于XSLT模板的移动终端页面自适应平台解决方案。平台不仅具有Google,百度等第三方平台操作简便、速度快、通用性强的特点,而且通过模板的方式使整个转化过程实现了内容、样式的人工可控。使用本平台,网站主可以将任何类型的网站快速的转化到移动终端。
网站网页分析聚类,是整个基于模板抽取转化技术的关键部分。针对现有聚类算法主要基于文本内容无法适用于基于网页结构的聚类,本文提出了一种基于页面DOM属性的聚类算法,其克服了传统树模型编辑距离算法不适用于HTMI,DOM Tree的特点,通过考虑页面标签的布局属性,为每一网页生成一数字指纹,并基于指纹进行归类。算法不仅提高了分类准确性,同时大大降低了分类所耗费的时间复杂度。
针对开发过程中网站分析、网页聚类完全基于人工肉眼的现状,本文基于上述算法设计并实现了一套网站智能评估系统,用户只需要提供根域名,系统便会对网站进行自动分析,不仅给出网页聚类结果,同时会对影响网站转化成WAP页面的因子进行搜索,并以柱状图的形式进行展现,对网站转化的复杂度给出科学的评估。为开发者编写模板完成转化过程提供可靠的依据。
在自适应平台以及网站智能评估系统实现过程中,与现有的成功的开源框架相结合,重用了HttpClient,Jtidy,Dom4J,XSLT和Xpath等技术,为整个平台提供了可靠的技术支持。
移动页面;自适应平台;网页聚类算法;Web结构特征
中国海洋大学
硕士
计算机应用技术
魏志强
2011
中文
TP393.092;TN929.5
60
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)