基于角色标注的中国人名自动识别研究
中国人名自动识别是中文未登录词识别的重点和难点,目前的解决方案自身存在一些本质的缺陷,实际效果还难以满足需求.本文提出了一种基于角色标注的中国人名自动识别方法.即:根据在人名识别中的作用,采取Viterbi算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别.识别过程中我们只需要某个词作为特定角色的概率以及角色之间的转移概率.该方法的实用性还在于:这些角色信息完全可以从语料库中自动抽取得到.通过对16M字节真实语料库的封闭与开放测试,该方法取得了接近98%的召回率,准确率也非常不错.总之,该方法是行之有效、能够成功地解决中国人名自动识别问题
中国人名识别 未登录词识别 角色标注 Viterbi算法
张华平 刘群
中国科学院计算技术研究所软件实验室,北京,100080
国内会议
中国科学院计算技术研究所第七届计算机科学与技术研究生学术讨论会
四川广元
中文
553-559
2002-07-13(万方平台首次上网日期,不代表论文的发表时间)