会议专题

基于词性特征提取的藏文文本分类方法研究

  本文在介绍信息增益、互信息、χ2(CHI)统计量和期望交叉墒四种常用的藏文文本分类提取特征词的基础上,研究了基于词性特征提取的方法和特征词权重计算,同时介绍了基于词性特征提取的算法描述和流程图,并通过引进查全率、查准率和F-测试对线性可分支持向量机分类的准确性进行评测,最后引进G函数对基于词性特征提取方法提取特征词效率和降低向量维数效果进行检验,实验结果证明基于词性特征提取的方法缩减了特征词的个数,降低了向量的维数,而且分类的准确性大大提高。

文字处理 藏文文本 文本分类 支持向量机

贾会强 刘晓丽 于洪志

中国民族语言文字信息技术重点实验室,计算机科学与技术,兰州,730030 中国民族语言文字信息技术重点实验室,理论语言学,兰州,730030

国内会议

2011年中国计算机学会服务计算学术会议(CCF NCSC2011)

济南

中文

1-5

2011-08-18(万方平台首次上网日期,不代表论文的发表时间)