会议专题

基于藏语字性标注的词性预测研究

本文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07.但词级标注模型难以解决词边界划分的一致性和未登录词的问题.基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果.

词性预测 字性标注 藏语

龙从军 刘汇丹 诺明花 吴健

中国科学院软件研究所,北京,100190;中国社会科学院民族学与人类学研究所,北京,100081 中国科学院软件研究所,北京,100190

国内会议

中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)

广州

中文

1-7

2015-11-13(万方平台首次上网日期,不代表论文的发表时间)