汉语句子骨架成分识别
本文提出了一种利用统计学习算法进行汉语句子骨架成分识别的方法。骨架成分识别基于短句进行,包括主语、核心动词短语、宾语等。骨架成分的单位是基本短语。利用IOB模型编码,将骨架成分识别作为分类问题处理。在两个方面对概率多分类器用于该任务时做了改进:一是在分类判别时,对每一种成分的N-best分类结果缓冲,将概率最高的作为结果输出;二是利用语序对分类结果进行修正。实验数据是宾州中文树库5.1(CTB5.1),共提取了55,614个短句进行训练和测试,主要骨架成分识别的F<,1>值分别为:主语88.22%,核心动词短语94.46%,直接宾语83.57%,间接宾语18.18%,补语81.85%。
文本数据 汉语语句 汉语骨架 语句识别 机器学习
秦颖 张素香 王小捷 钟义信
北京邮电大学信息工程学院,100876 华北电力大学电子与通信工程系,071003
国内会议
哈尔滨
中文
889-894
2007-11-20(万方平台首次上网日期,不代表论文的发表时间)