基于自动编码器的短文本特征提取及聚类研究
针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法.该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间.首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性.实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题.
网络短文本 特征提取 聚类算法 自动编码器
刘勘 袁蕴英
中南财经政法大学信息与安全工程学院,武汉430074
国内会议
深圳
中文
282-288
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)