基于贝叶斯分类的汉字编码识别方法

摘要：

本文提出了一种基于贝叶斯分类的汉字编码自动识别方法,该方法将被识别文本看成连续字节流,选取字节作为识别特征.首先在训练语料中统计各种编码的字节分布概率,然后在识别文本中提取若干个特征点计算被测文本为每种编码的概率,采用最大概率原则得到识别结果.实验结果显示,此方法准确率高,速度快,而且可扩展性强。

关键词：编码识别贝叶斯分类汉字编码识别

作者: 贺敏张华平程学旗

作者单位: 中国科学院计算技术研究所,北京,100080;中国科学院研究生院,北京,100080 中国科学院计算技术研究所,北京,100080

会议类型: 国内会议

会议地点: 青岛

会议语种:中文

页码: 465-471

在线出版日期: 2006-07-31（万方平台首次上网日期，不代表论文的发表时间）

会议专题