基于音视频融合的视频标题生成

摘要：

　　视频标题生成(video captioning)是联结计算机视觉和自然语言处理，实现用自然语言描述视频的主要内容的技术。提出了一种基于音视频融合的视频标题生成算法，分别利用两个独立的编码器对视频中的视觉和音频进行特征提取，并结合模态注意力机制和解码器生成句子。在MSR-VTT 数据集上进行多组对比实验，验证了算法的优势。

关键词：视频标题生成多模态注意力机制

作者: 王力夏海轮郭彩丽

作者单位: 北京邮电大学信息与通信工程学院先进信息网络北京实验室,北京 100876

会议类型: 国内会议

会议名称: 第十五届全国信号和智能信息处理与应用学术会议

会议地点: 重庆

会议语种:中文

页码: 363-366,372

在线出版日期: 2022-04-10（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于音视频融合的视频标题生成