会议专题

一种基于Bi-gram和HMM的中文未登录词辨识方法

未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上,提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息,引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布,并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91%以上的精度和90%以上的召回率,具有较强的推广能力。

分词 未登录词 自动辨识 动态规划

朱静 李建华 陆松年

上海交通大学电子工程系,上海,200030

国内会议

第六届中国信息和通信安全学术会议(CCICS”2009)

南京

中文

408-416

2009-05-30(万方平台首次上网日期,不代表论文的发表时间)