会议专题

汉字识别语言模型的一种新探索

本文首先讨论了几种以马尔可夫链为基础的语言模型,在此基础上,提出适于汉字识别的五字混合模型.该模型的特点是它不仅利用某字以前的信息,也利用该字的后续信息来修正该字.实际上,该模型包括三个三字模型的叠加,并包含了能反映文章自身特点的Cache特性,在使用计算机对汉语自动分类的基础上,也加入3g-gram模型,从而使该算法的速度大大提高,还使用了一种计计算机可以大致区分正误字的方法.基于该模型,做了一个包含约150万字的语料库进行实验研究,所得的结果令人鼓舞.

汉字识别 马尔可夫链 语言模型 模式识别

张胜 吴显礼

中国科学院自动化所文字识别工程中心(北京)

国内会议

中国自动化学会第15届青年学术年会

上海

中文

126-131

2000-07-01(万方平台首次上网日期,不代表论文的发表时间)