会议专题

Co-training机器学习方法在中文组块识别中的应用

采用半指导机器学习方法Co-training实现中文组块识别.首先明确了中文组块的定义,Co-training算法的形式化定义.文中提出了基于一致性的Co-training选取方法将增益的隐马尔可夫模型(Transductive HMM)和基于转换规则的分类器(fnTb1)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85.34﹪和83.41﹪,分别提高了2.13﹪和7.21﹪.

中文组块 分类器 机器学习 树库语料

刘世岳 李珩 张俐 姚天顺

东北大学信息学院计算机软件与理论研究所(辽宁沈阳)

国内会议

第二届全国学生计算语言学研讨会

北京

中文

190-196

2004-08-01(万方平台首次上网日期,不代表论文的发表时间)