中文语义角色标注的特征工程

摘要：

基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能.本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76％增加到91.31％.结果表明,这些新特征和组合特征显著提高了系统的性能.因此,目前进行语义角色标注应集中精力寻找丰富有效的特征.

关键词：语义分析语义角色标注特征工程最大熵分类器

作者: 刘怀军车万翔刘挺

作者单位: 哈尔滨工业大学计算机学院,哈尔滨,150001

会议类型: 国内会议

会议名称: 第三届学术计算语言学研讨会

会议地点: 沈阳

会议语种:中文

页码: 75-80

在线出版日期: 2006-08-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

中文语义角色标注的特征工程