会议专题

基于音视频融合的视频标题生成

  视频标题生成(video captioning)是联结计算机视觉和自然语言处理,实现用自然语言描述视频的主要内容的技术。提出了一种基于音视频融合的视频标题生成算法,分别利用两个独立的编码器对视频中的视觉和音频进行特征提取,并结合模态注意力机制和解码器生成句子。在MSR-VTT 数据集上进行多组对比实验,验证了算法的优势。

视频标题生成 多模态 注意力机制

王力 夏海轮 郭彩丽

北京邮电大学 信息与通信工程学院 先进信息网络北京实验室,北京 100876

国内会议

第十五届全国信号和智能信息处理与应用学术会议

重庆

中文

363-366,372

2022-04-10(万方平台首次上网日期,不代表论文的发表时间)