基于”Bag of Words”的视频匹配方法
视频匹配主要需要解决两个关键问题:如何对视频内容建模,从而能够用较少的数据量表示视频的内容;如何在拥有大量视频数据的数据库中实现快速索引。针对第一个问题,本文以子镜头作为视频匹配的基本单位,首次尝试运用物体识别中的”Bag of Words”表示模型对视频内容的建模,将子镜头特征映射为视觉关键词(VisualWords)的集合。对于第二个问题,本文引入在文本索引中广泛使用的技术,对子镜头建立视觉关键词词组的倒排索引,实现了大样本空间中子镜头的快速查找。实验结果表明,和已有方法相比,本文提出的基于”Bag of Words”的视频匹配方法在大视频样本库上获得了更高的检索精度和更快的检索速度。
视频匹配 关键词 倒排索引 物体识别
李远宁 刘汀 蒋树强 黄庆明
中国科学院计算技术研究所,北京 100080 中国科学院研究生院,北京,100039
国内会议
青岛
中文
419-425
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)