中文语义角色标注的特征工程
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能.本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%.结果表明,这些新特征和组合特征显著提高了系统的性能.因此,目前进行语义角色标注应集中精力寻找丰富有效的特征.
语义分析 语义角色标注 特征工程 最大熵分类器
刘怀军 车万翔 刘挺
哈尔滨工业大学计算机学院,哈尔滨,150001
国内会议
沈阳
中文
75-80
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)