会议专题

基于语言模型的中文文本分类系统

文本分类技术是近年来自然语言处理研究领域的一个热点,向量空间模型(VSM)是文本分类的经典模型,该模型在应用时假设词与词之间是相互独立的,忽略了任何词序上的相互关系,但是在几乎所有的应用中,词的相对顺序是非常有意义的,针对该特点研究了统计语言模型(LM)并将该模型应用到文本分类上,高阶的语言模型在一定程度上包含了词序信息,根据该方法设计并实现了Bigram模型文本分类器,实验结果表明,在分类准确率和稳定性上,该方法优于传统的向量空间模型。

中文文本分类 语言模型 向量空间模型 统计平滑 自然语言处理

杜鲁燕 苗振江

北京交通大学 信息科学研究所 北京 100044

国内会议

第十届全国人机语音通讯学术会议

乌鲁木齐

中文

82-86

2009-08-14(万方平台首次上网日期,不代表论文的发表时间)