基于编码特征轨迹簇的视频检索
近年来,全球信息化和经济全球化已经成为时代的发展潮流,研究新的宽带业务,开发网络多媒体应用,提高人们的生活质量,已经为全世界共同关注的问题。宽带业务与多媒体信息的主体是图像和视频,但视频融合了图像、文字、声音等多种媒体,具有最强的表现力。因此,研究开发以视频为主体的多媒体业务已经成为当今信息科学与技术的重要研究领域。如何对急速膨胀的海量视频数据进行有效的检索处理,是人们研究开发以视频为主体的多媒体业务首先要面对的一个问题。针对基于关键字检索(Keywords-Based Retrieval)方法的不足,人们提出了基于内容的视频检索(CBVR,Content-Based Video Retrieval)方法。
本文主要研究的目标是在视频内检索包含查询目标的视频镜头,即用户给定一幅标识查询目标的图像,提取查询目标的特征,与视频数据库中候选目标的特征进行匹配,获得检索结果。
视频虽然比文本、图像包含更丰富的信息,但是却无法像文本那样直接地给出它的内容并且进行基于内容的检索。要实现基于内容的视频检索,首先必须对视频进行预处理,包括视频结构化分析和视频特征提取。视频结构化分析是指通过镜头边界的检测,把视频分割成镜头;视频特征提取是指提取颜色、纹理、形状、运动和语义等各种特征,形成描述镜头的视频特征。然后依靠这些视频特征来进行视频检索。所以,本文首先在视频帧提取SIFT(Scale InvariantFeature Transform)特征,SIFT特征是图像的局部特征,该特征对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性,具有很强的鲁棒性;其次,根据视频帧之间局部不变特征向量的匹配度检测镜头的边界,从而进行镜头分割;再次,跟踪稳定的视频特征生成视频特征轨迹(tracks);再次,在RGB空间对图像像素进行颜色量化和编码。用MSER(maximally stable extremal regions)算法在每个镜头的第一帧提取特征,统计MSER特征的主颜色,利用特征的颜色信息和空间位置信息进行聚类;最后,在聚类得到的区域统计特征轨迹,获得镜头内部的特征轨迹簇表示的候选目标用这些候选目标代表镜头进行视频检索,提高检索的效率。在视频检索时,计算查询目标与视频库中每个镜头内候选目标的相似度,根据相似度大小,返回包含查询目标的所有视频镜头。
视频检索;镜头分割;聚类分析;颜色编码;编码特征轨迹簇;查询目标
中国海洋大学
硕士
计算机系统结构
解翠
2011
中文
TP391.3
63
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)