结合词相关特征与流行学习的中文问句分类
针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了87.44%,比采用TFIDF进行特征提取训练得到的分类器的准确率提高了16个百分点;比采用语义相似度进行特征提取,并对特征空间进行PCA降维后训练得到的分类器的分类准确率提高了4个百分点。
统计问句分类 流形学习 局部线性嵌入 非线性降维 词汇语义相似度
刘立 余正涛 王蒙 毛存礼 郭剑毅
昆明理工大学信息工程与自动化学院,昆明,650051 昆明理工大学信息工程与自动化学院,昆明,650051;云南省计算机技术应用重点实验室智能信息处理研究所,昆明,650051 云南省计算机技术应用重点实验室智能信息处理研究所,昆明,650051
国内会议
黑龙江镜泊湖
中文
610-617
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)