会议专题

面向句法分析的样本选择

句法分析是自然语言处理的一个基本问题,也是目前急待解决的一个问题.目前大多数的句法分析是基于统计方法的,基于统计的句法分析需要大规模的训练语料,而标注一个大规模语料需要很大的人力.为了减少标注句法树库所需的人力,本文对选择样本进行了研究.本文从句法结构上对句子进行聚类,根据聚类的结果精选出一个小的句子集,这个句子集的规则分布近似于整个句子集的规则分布.标注这个句子集就能在保证句法分析器性能的前提下减少标注所需的人力.实验结果证明,通过选取一半的句子训练出的句法分析器,其性能就能近似于用所有句子训练的句法分析器的性能.

句法分析 样本选择 聚类 自然语言处理

孙俊 曹海龙 赵铁军

哈尔滨工业大学计算机学院,哈尔滨市,150001

国内会议

第三届学术计算语言学研讨会

沈阳

中文

49-53

2006-08-15(万方平台首次上网日期,不代表论文的发表时间)