汉语句子骨架成分识别

摘要：

本文提出了一种利用统计学习算法进行汉语句子骨架成分识别的方法。骨架成分识别基于短句进行,包括主语、核心动词短语、宾语等。骨架成分的单位是基本短语。利用IOB模型编码,将骨架成分识别作为分类问题处理。在两个方面对概率多分类器用于该任务时做了改进：一是在分类判别时,对每一种成分的N-best分类结果缓冲,将概率最高的作为结果输出；二是利用语序对分类结果进行修正。实验数据是宾州中文树库5.1(CTB5.1),共提取了55,614个短句进行训练和测试,主要骨架成分识别的F<,1>值分别为：主语88.22％,核心动词短语94.46％,直接宾语83.57％,间接宾语18.18％,补语81.85％。

关键词：文本数据汉语语句汉语骨架语句识别机器学习

作者: 秦颖张素香王小捷钟义信

作者单位: 北京邮电大学信息工程学院,100876 华北电力大学电子与通信工程系,071003

会议类型: 国内会议

会议名称: 中国人工智能学会第12届全国学术年会

会议地点: 哈尔滨

会议语种:中文

页码: 889-894

在线出版日期: 2007-11-20（万方平台首次上网日期，不代表论文的发表时间）

会议专题

汉语句子骨架成分识别