中文短文本流的快速编码识别算法
提出了一种面向中文短文本流的快速编码识别算--CodeFinder.CodeFinder构造一个编码识别专用词典,并对每个词语关联一个编码可信度。扫描待识别文本并计算文本在各种可能编码形式下的编码可信度,即可确定文本的最终编码形式。实验表明,CodeFinder识别准确率非常高,只需要很短的文本即可完成编码识别过程,对文本的边界不敏感,适合于中文短文本流的编码识别。
编码识别算法 中文短文本流 编码可信度 CodeFinder识别
龚才春 张华平 许洪波 程学旗 白硕
中国科学院计算技术研究所,北京,100080;中国科学院研究生院,北京,1000049 中国科学院计算技术研究所,北京,100080
国内会议
武汉
中文
772-776
2007-10-13(万方平台首次上网日期,不代表论文的发表时间)