一种基于Bi-gram和HMM的中文未登录词辨识方法

摘要：

未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布，并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91％以上的精度和90％以上的召回率，具有较强的推广能力。

关键词：分词未登录词自动辨识动态规划

作者: 朱静李建华陆松年

作者单位: 上海交通大学电子工程系，上海，200030

会议类型: 国内会议

会议名称: 第六届中国信息和通信安全学术会议(CCICS”2009)

会议地点: 南京

会议语种:中文

页码: 408-416

在线出版日期: 2009-05-30（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于Bi-gram和HMM的中文未登录词辨识方法