会议专题

基于序列标注的中文分词、词性标注模型比较分析

本文从准确率、速度两个方面分别对三种不同的分词词性标注模型进行了比较。这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Leam—ing框架进行集成的融合模型。通过在人民日报、CoNLL09、CTB5.0和CTB7.0四个数据集上上对这三种模型进行比较分析,实验最终结果表明,分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置。最后本文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果。

刘一佳 车万翔 刘挺 张梅山

哈工大社会计算与信息检索研究中心 哈尔滨 150001

国内会议

第六届全国青年计算语言学会议

上海

中文

26-34

2012-11-17(万方平台首次上网日期,不代表论文的发表时间)