基于时空短语的视频检索
随着网络技术和多媒体技术的高速发展,视频资源日益丰富,应用也越来越普遍。视频资源由于包含了生动丰富的信息,吸引了越来越多的研究者和用户的重视。如何从海量的多媒体信息库中找到需要的多媒体信息已经成为一个重要的课题。传统的基于文字的方法已不能满足人们查找信息的要求。为了解决这些难题,20世纪90年代出现了基于内容的视频检索技术(CBVR,Content-based VideoRetrieval),就是由计算机对于视频内容自动分析,用户可以通过提交样例数据或者描述信息查找自己想要的视频数据。
本文在基于内容视频检索研究成果的基础上,根据特征轨迹间的时空关系,提出了基于时空词(spatiotemporal-word)的构建方法与镜头内时空短语(spatiotemporal-phrase)的构建方法,并将视频镜头表示为基于时空短语的矢量,这样使得基于内容的视频检索简化为类似于基于文本的检索的方法,这样做有利于提高检索效率。实验证明,本文方法取得了较好的检索效果,为以后进一步研究打下了基础。
本文首先对整个视频进行预处理。(1)为了不丢失镜头内图像信息,本系统使用所有帧参与特征提取,与传统的只考虑关键帧的方法相比,这增加了预处理阶段的时间开销,但不影响用户在线检索的时间。(2)用SIFT方法提取帧图像上的特征和进行特征描述。(3)计算帧间的特征匹配,根据相邻帧间特征匹配的程度分割视频为一系列镜头。(4)在每个镜头内跟踪特征,检测特征轨迹,获取特征轨迹的表示。(5)用K均值聚类法对特征轨迹进行聚类,生成具有时空属性的时空词。(6)对每个镜头,根据特征轨迹间的空间距离关系构建时空短语,把镜头表示为一个由出现在镜头内的时空短语的频数构成的矢量,即镜头矢量。
查询阶段,由用户给出查询物体的示例图像,提取查询图像上的特征,将特征描述子量化成时空词,根据查询图像上特征问的空间位置关系构建时空短语,进而把查询图像表示为一个与镜头矢量相同长度的矢量,即查询矢量。计算查询矢量与每个镜头矢量的反余弦值,即查询矢量与每个镜头矢量的相似度,按相似度大小排序,得到目标镜头反馈给用户,并在每个镜头中定位该物体。检索结果与文献[1]的方法进行比较,说明本文的方法取得了较好的检索效果。
在每个检索到的镜头中,对于检索到的特征轨迹在帧图像上进行目标物体定位时出现的定位不准确问题,本文给出了一个基于时空短语的特征轨迹分组方法用于目标定位优化。实验证明该方法以较少的时间开销取得了较满意的目标物体定位效果。
视频检索;特征提取;时空短语;物体检索;特征轨迹
中国海洋大学
硕士
计算机应用技术
解翠
2011
中文
TP391.3
62
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)