文档图像识别中关键算法的研究与实现
在当今时代,网络和多媒体技术迅猛发展,在促进了信息交换的同时,也带来了对信息的巨大需求。光学字符识别OCR作为计算机信息录入的一个重要技术,也得到了飞速发展。文种识别作为OCR技术的前端和基础,同时也是自动化处理工作中的重要部分,近年来得到了广泛的关注与研究。
本文设计和实现了一个文档图像的文种识别系统,主要研究工作有:
(1)课题背景。图像信息是人类认识世界的重要知识来源,国外学者曾做过统计,人类所获得的外界信息有70%以上是来自眼睛摄取的图像。人们把研究对象从模拟领域延伸到数字领域,于是产生了数字图像的概念。
(2)图像去噪。介绍了几种图像去噪方法和二值化方法,并通过梯度调整改进了最佳熵阈值分割二值化算法,实验证明这种改进的算法使目标边缘细节信息不易丢失,减少了出现线段断裂以及丢失的情况。
(3)图像预处理。预处理是图像处理中一项很重要的工作,预处理的质量直接影响后续工作的效果和成败。本文着重介绍我们改进的Hough变换方法,用于文档图像的倾斜校正。这种算法,通过以下措施减小了计算量:采用合适的量化角度,减小量化步长:选择子区域取代完整的图像,减小待处理的数据量;选取特征点集而不是处理区域全部像素,进一步减小待处理的数据量。最后,为了提高图像质量,不是简单地旋转而是用像素面积插值法进行倾斜的校正。
(4)版面分析。版面分割与区域识别是将版面进行空间划分,生成若干包含不同数据类型的区域。该算法首先将版面划分为图像、图表和文本等多个层次,先对版面中的图像层和图表层中的主要线段分别进行提取,再利用连通区域法对文本层进行分析,通过文本模糊、边缘检测、段落提取、投影周期性的判断,对图形、表格与文本各部分加以区分。可以看出,该算法将版面分割与区域识别相结合,提高了算法的效率。
文档图像;光学字符识别;文种识别
中国海洋大学
硕士
计算机技术
王胜科
2009
中文
TP391.41
66
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)