会议专题

基于双向LSTM语义强化的主题建模

当前,双向LSTM神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.本文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA).该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU(Generalized Polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程.在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了该模型在文本语义特征表达方面的有效性.

语义强化 双向长短期记忆人工神经网络 主题模型

彭敏 杨绍雄 朱佳晖

武汉大学 计算机学院,武汉 430072

国内会议

第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会

南京

中文

1-10

2017-10-13(万方平台首次上网日期,不代表论文的发表时间)