学位专题

<
DOI:10.7666/d.y1070635

图书借阅数据的聚类挖掘

李淑芬
中国海洋大学
引用
数据挖掘是从大量的数据中提取新颖的、有效的、可信的并被人理解的模式的非平凡过程。而聚类分析则是数据挖掘的一项重要功能。 本文首先简要介绍了数据挖掘的基本理论;接着描述了聚类的含义以及针对不同数据类型的差异度计算;然后列出了数据挖掘中现存的几种有代表性的聚类算法的思想以及它们的优缺点。 在图书馆现有的自动化系统中,每天、每月、每年都会产生大量的统计数据和表单。面对这些海量数据,关键问题是如何将它们合理归类。而聚类分析就是将数据合理归类的一种方法,其目的是把相似的东西归为一类,使得类内具有较大的相似性,而类间具有较小的相似性。 以此为背景,文章着重陈述了在高校图书馆中基于k-means算法的图书聚类。在此部分,首先简要介绍了k-means算法的基本思想;其次在SQL Server数据库中,用SQL查询得出中国海洋大学图书馆中图书的借阅次数、续借次数和平均借阅时间,其中数据是由中国海洋大学图书馆提供的;最后利用k-means算法对图书进行聚类,按图书使用率将图书使用情况分为高、中、低3类,最终得出聚类结果。聚类结果表明,图书馆采购部门应根据现有的图书适当购进一些社会、言情小说,惊险、推理小说,英语读物,英语基本词汇、英语会话图书、英语考试图书,英国短篇小说,散文类图书,计算机程序语言和网络类等图书来满足不同学生读者的需求.聚类结果在一定程度上能够指导图书馆采购部门及时补充图书,以满足读者对图书的需求。

数据挖掘;聚类分析;k-means算法;图书借阅数据

中国海洋大学

硕士

信号与信息处理

王怀阳

2007

中文

TP311.13

56

2007-08-27(万方平台首次上网日期,不代表论文的发表时间)