学位专题

<
DOI:10.7666/d.y989101

基于BBS文本信息的中文自动分词系统的研究

何淑芳
中国海洋大学
引用
随着Internet技术的发展,各种网络应用服务越来越多,BBS(Bullet inBoards System)的开设为广大网络用户开辟了自由发表言论的空间,但一些不健康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用户言论中有效的清除不文明及反动言论成为当前网络管理人员越来越关心的问题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下,已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现BBS的安全管理工作就成为各网站越来越关注的热点。 目前针对BBS文档的鉴别与过滤还不成熟。由于BBS的特殊性,用于普通Web文档和电子邮件的鉴别技术在用于鉴别BBS文档时效果并不理想。研究对BBS文本内容进行数据挖掘,发现并自动删除不健康及反动言论,对网络管理有着非常重要的现实意义。在处理大量文档时,需要从大量文档数据中分析和提取有用信息,需要相关的工具完成不同文档的比较,以及文档重要性和相关性的排列,或找出多文档的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研究课题。 文本挖掘即文本数据库中的知识发现,它是数据挖掘的一个分支。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点。基于BBS的文本挖掘就是从BBS的内容或其描述中提取所需信息的过程,它在BBS的管理中扮演着越来越重要的角色。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词是中文信息处理领域中的基础课题,也是一个难点问题。由于中文文本是按句连写的,词间无间隙,按句连写转换成按词连写,词的正确切分是进行中文文本处理的必要条件,它是一切工作的基础。本文的主要工作就是设计和实现一种快速分词算法,将BBS用户提交给服务器准备发送的内容截获并保存在文本文件中,并对这些文本文件进行分词处理,为下一步的文本分类及实现文本挖掘的要求和BBS的安全管理打下基础。 本文采集登录BBS站点的每一用户基本信息(IP地址、用户名、信用等级等),将用户提交给服务器准备发送的内容截获并保存在文本文件中,建立了文本数据库,并在分析汉字编码系统和汉语词特点的基础上,采用hashmap组织词典,建立了分词词典,最后设计和实现了一种快速分词算法,即正向最大匹配+姓名识别,这种分词算法在试验中证明实用性强,分词速度快,准确率高,能识别数字、名字,基本满足我们管理BBS的需要。

BBS;文本挖掘;分词词典;自动分词

中国海洋大学

硕士

计算机应用技术

魏振钢

2006

中文

TP311.1

52

2007-08-07(万方平台首次上网日期,不代表论文的发表时间)