短语结构树库向依存结构树库转化研究
汉语依存树库建设相对其他语言如英语,在规模和质量上还有一些差距,树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。 本文通过规则和统计相结合的方法,将短语树库Penn Chinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。我们将转化后的树库加入HIT-IR-CDT训练和测试依存句法分析器的性能。实验表明,加入少量转化后的树库之后,依存句法分析器的性能有所提高,但加入大量转化后树库,性能反而下降。经过细致分析,我们认为,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。
汉字处理 短语结构 汉语树库 数理语言学
李正华 车万翔 刘挺
哈尔滨工业大学计算机学院,哈尔滨 150001
国内会议
太原
中文
254-260
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)