学位专题

<
DOI:10.7666/d.y1926578

社会网络中关联用户的挖掘与分析

许迎迎
中国海洋大学
引用
随着计算机技术的迅速发展以及网络的普及,越来越多的用户开始通过网络进行各种信息的分享与交流,社会网络的概念也应运而生。在社会网络中,每个行动者都与其他行动者有或多或少的关系,而社会网络分析就是要建立这些关系的模型,力图描述群体关系的结构,研究这种结构对群体功能或者群体内部个体的影响。通过分析社会网络中的人物关系,用户可以获悉在目标网络中哪些用户及信息是最受欢迎的或者是自己最感兴趣的,这对于用户更快更直接地进行信息的分享与交流具有很大的参考价值。因此本文提出了根据社会网络中个体行为的特征来挖掘和分析用户之间的关系以及关联关键字的课题研究。   在社会网络中,越来越多的用户采用Blog的形式与他人来分享自己获取的各种信息,而他人也会根据自己的兴趣爱好对信息进行分享与交流。因此,本课题的研究以用户在Blog网站中的行为特征为基本依据,渗入挖掘和分析他们之间的人物关系,进而开发一个人物关系搜索引擎,用于搜索关联用户及其关联关键字。在本文中,把因为某些Blog而存在关系的用户称之为关联用户,该Blog的主题关键字则被称为用户关联关键字。其中,Blog的主题关键字是通过对Blog进行分词,然后根据TFIDF算法计算词的权重而得到的,即Blog中权重最高的词。   本文主要研究了社会网络中关联用户的挖掘与分析方法,设计和开发了关联用户查询系统,并以科学家网为例进行了验证和分析。   首先对本课题研究的意义以及国内外研究现状进行了介绍,然后阐述了在课题研究与实现中用到的算法基础以及技术理论,包括MD5算法、TFIDF算法、Linux内核单路多IO机制以及网络编程等相关技术。   其次,对关联用户查询系统进行了需求分析和总体设计,并描述了系统中关键技术的实现以及算法设计过程,包括抓取部分中的避免重复抓取策略、文件的存储结构、关联用户及其关联关键字的提取以及结果图的显示等。   最后,本文对本课题研究的工作进行了总结和展望。

社会网络;关联用户;TFIDF算法;关系搜索;数据挖掘

中国海洋大学

硕士

计算机软件与理论

徐建良

2011

中文

TP311.13;C912

67

2011-10-31(万方平台首次上网日期,不代表论文的发表时间)