数字视频中文本的提取方法研究
对于视频内容的分析与检索已成为当前视频信息研究领域的一个热点。由于视频中包含的文字信息与视频内容关系密切,可以为视频内容理解与检索提供重要线索,因此如何快速、准确的提取视频中文本信息也就成为一项非常有意义的研究方向。除此以外,视频文本提取技术通过与各种移动数码设备(数码摄像机、数码相机、PDA、手机等)结合,在自动翻译、盲人导航、机器人视觉、智能交通等方面也发挥了越来越大的作用,并逐渐成为了研究人员关注的热点问题。
从视频中提取文本信息并不是一件简单的事情,由于视频图像中的文本往往存在于复杂的背景中,同一幅图像中可能含有不同字体、颜色、大小和排列方式的文字,因此对于视频中文本检测、定位和分割具有很大的难度。
本文对于视频文本提取框架中的若干关键问题,如文本定位、跟踪、增强以及实际应用(新闻故事自动分割、道路交通标识牌文字识别系统)开展研究。
研究内容主要如下:
提出了一种综合灰度形态学和小波多尺度分解与重构算法的文本定位方法。首先结合形态学与小波分析在边缘检测方面的优点,提取出视频帧边缘像素,然后通过“基于密度”的区域增长算法将边缘像素合并成为候选文本区。最后采用基于BPSO算法进行特征选择及SVM参数同步优化的分类器对候选文本区进行确认。本方法有效克服了单独优化特征或单独优化分类器参数的缺陷,取得较好的分类效果。
提出一种基于边缘角点与改进Hausdorff距离为判定准则的静止和线性运动文本的跟踪算法。首先将边缘算子提取的二值图像经去噪、细化处理后,以提取的边缘角点为特征点集合,用改进的Hausdorff距离度量为判定准则,通过点模式匹配法跟踪文本区域在相邻视频帧序列中的位置。实验结果显示,点模式匹配的跟踪算法比图像整体像素匹配的算法跟踪精度更高。由于该算法不必对每个视频帧都进行文本定位,从而大大提高了系统效率。在文本跟踪的基础上,用基于多帧融合思想的前景/背景识别算法提取视频文字笔画并作OCR识别。
提出了一种融合视频中的标题字幕信息以及音、视频等多模态信息的新闻故事单元分割方法,并实现了一个新闻故事分割、浏览和检索的原型系统。首先根据第二、三章的算法实现对新闻标题文本的定位、跟踪与分割,并在镜头分割的基础上,根据混合高斯模型(GMM)与KL差异法完成播音员和非播音员音频镜头的识别,最后结合新闻视频节目的特殊结构知识完成对新闻节目故事单元的自动分割。
介绍了一种视频文本提取算法在辅助驾驶系统中的应用,通过对道路标识牌上的文字提取,从而提供给驾驶员在公路上的导航,如所处位置、方向、限速等信息。算法首先基于颜色信息来定位特定颜色的道路标识牌,然后经过仿射变换,基于笔画算子的种子区域增长算法进行交通标识牌文字的定位、分割和提取。
文字定位;视频文字跟踪;点模式匹配;故事单元分割;车辆导航;数字视频;文本提取
中国海洋大学
博士
物理海洋学
魏志强
2011
中文
TP391.1;TP301.6
121
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)