基于转换的错误学习方法在中文分词后处理中的应用
为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组合等九套模板.结果表明在复合模板中包含基于字的二元模板比不包含的效果好,而一元二元复合模板效果最好且在初始精度很高的情况下仍带来明显性能提升,使HMM在SIGHAN 2006 MSRA开放测试上的名次由第六位上升到第三位.同时在上述九套模板上进行了基于规则数目和规则得分的裁剪实验,结果表明平均使用9.45%的规则就能达到85.947%的性能提升.
错误学习方法 中文分词后处理 规则模板 规则裁剪 分词精度
何楠 毛新年 董远 王海拉
北京邮电大学信息工程学院,北京,100876 北京法国电信研发中心有限公司,北京,100876 北京邮电大学信息工程学院,北京,100876;北京法国电信研发中心有限公司,北京,100876
国内会议
武汉
中文
46-51
2007-10-13(万方平台首次上网日期,不代表论文的发表时间)