基于音视频融合的视频标题生成
视频标题生成(video captioning)是联结计算机视觉和自然语言处理,实现用自然语言描述视频的主要内容的技术。提出了一种基于音视频融合的视频标题生成算法,分别利用两个独立的编码器对视频中的视觉和音频进行特征提取,并结合模态注意力机制和解码器生成句子。在MSR-VTT 数据集上进行多组对比实验,验证了算法的优势。
视频标题生成 多模态 注意力机制
王力 夏海轮 郭彩丽
北京邮电大学 信息与通信工程学院 先进信息网络北京实验室,北京 100876
国内会议
重庆
中文
363-366,372
2022-04-10(万方平台首次上网日期,不代表论文的发表时间)