会议专题

基于自动编码器的短文本特征提取及聚类研究

针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法.该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间.首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性.实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题.

网络短文本 特征提取 聚类算法 自动编码器

刘勘 袁蕴英

中南财经政法大学信息与安全工程学院,武汉430074

国内会议

第三届CCF国际自然语言处理与中文计算会议

深圳

中文

282-288

2014-12-05(万方平台首次上网日期,不代表论文的发表时间)