会议专题

基于Spatial-DCTHash动态参数网络的视觉问答算法

近年来,随着深度学习的应用和多模态的深入研究,问答系统从传统的文本问答扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点之一.Hyeonwoo Noh等人在CVPR2016中提出一种简单、有效的动态参数预测模型(Dynamic Parameter Prediction Network,DPPnet),但是此模型仅在空域滤波器上进行Hash,得到权重位置是随机的,没有考虑利用图像的空间信息.对于如何利用图像的空间信息以提高模型性能,本文采用类似Fully Convolutional Network的方式改造传统的VGGnet卷积神经网络,提取具有空间信息的图像特征,在此基础上,提出一种新的空间离散余弦哈希动态参数网络来结合问题特征和图像特征预测视觉答案.本文在COCOqa和MSCOCO-VQA数据集上与已有的方法进行了对比实验,实验结果表明本文的算法在性能上有较大提高.

文本信息 视觉问答 离散余弦变换 卷积神经网络

孟祥申 江爱文 刘长红 叶继华 王明文

江西师范大学计算机信息工程学院,江西省南昌市330022

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-11

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)