会议专题

基于BCC的离合词离析形式自动识别研究

本文从中文信息处理角度对动宾型离合词自动识别进行研究.通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法.经过优化后,该算法在20亿字的语料中得到了91.6%的正确率.离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,人工标注的疏漏等是影响实验结论的主要因素.

中文信息处理 离合词 离析形式 自动识别

臧娇娇 荀恩东

北京语言大学,北京市,100083

国内会议

第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)

烟台

中文

1-11

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)