会议专题

基于贝叶斯分类的汉字编码识别方法

本文提出了一种基于贝叶斯分类的汉字编码自动识别方法,该方法将被识别文本看成连续字节流,选取字节作为识别特征.首先在训练语料中统计各种编码的字节分布概率,然后在识别文本中提取若干个特征点计算被测文本为每种编码的概率,采用最大概率原则得到识别结果.实验结果显示,此方法准确率高,速度快,而且可扩展性强。

编码识别 贝叶斯分类 汉字编码识别

贺敏 张华平 程学旗

中国科学院计算技术研究所,北京,100080;中国科学院研究生院,北京,100080 中国科学院计算技术研究所,北京,100080

国内会议

中国科学院计算技术研究所第九届计算机科学与技术研究生学术讨论会

青岛

中文

465-471

2006-07-31(万方平台首次上网日期,不代表论文的发表时间)