词义模型的训练及其在音字转换中的应用
该文主要研究词义知识的利用,词义模型训练和词的发类问题。首先给了使用统计模型标准中文文本词义的实验。其中,所用的词义标注集包含了1428类。在2000万词的语料训练得到一个二阶的词义模型后,运用该模型对50万词的集外语料进行测试,复杂度为65.48,词义准确率为92.73℅。然后,将该词义模型用于汉语的音室转换系统中,音字的转换的准确率为97.82℅。这个结果要明显好于传统的二元文法模型(93.2℅)和词性+二元文方法模型(95.1℅)。我们的实验表明该词义模型能减少词的岐义性,并能且够表地自然语言中词和词之间的短距离和长距离的词义依赖关系。
标准算法 人机交互 词义模型 词义标注 机器学习 语音识别 复杂度 音字转换
张建平 王作英
清华大学电子工程系(北京)
国内会议
北京
中文
231-236
1999-04-01(万方平台首次上网日期,不代表论文的发表时间)