基于N-Gram的多语言识别实验研究
本文基于N-Gram 理论实现了一个多语言自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用语言的文本进行了语言自动识别研究。实验分为训练多语种语料库和语种识别两个阶段,训练和测试文本均来自于开放式目录工程 (Open DirectoryProject) 。此外,还将笔者开发的识别系统与另一基于N-Gram 的语言识别程序TextCat 进行了对比分析。实验结果表明,本文程序对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。
N-Gram 多语言识别 语料库 文本分类
王昊 李思舒 邓三鸿
南京大学信息管理学院,南京 210093
国内会议
云南腾冲
中文
298-307
2012-11-26(万方平台首次上网日期,不代表论文的发表时间)