会议专题

汉语文本按语体分类的研究

有导文本分类是指在给定的分类体系下,通过对训练语料的学习对每个类建立特征向量以表示该类,然后对每一个新的文本自动确定其类别的过程.本文介绍的文本分类的目的不是按专业领域对文本分类,而是按语体对文本分类.这种分类研究对于统计语言模型的训练具有重要意义.本文以汉字的字频向量作为语体类别的表示方法,通过计算类别向量与文本向量的相似度来确定文本的类别.已应用该方法对几种不同语体的小说分类,取得了较好的分类结果.

文本分类 向量空间模型 语体类别

王慧玲 宋柔 戴伟长

北京工业大学(北京) 北京语言文化大学(北京)

国内会议

全国第六届计算语言学联合学术会议

太原

中文

344-352

2001-08-04(万方平台首次上网日期,不代表论文的发表时间)