中国人名性别自动识别
人名性别识别能应用在自然语言处理和信息检索中.本文尝试了中国人名性别自动识别的两种方法.一种方法是采用贝叶斯方法对比了三种人名用字模型,对10万人名的实验结果表明,人名尾字对性别识别具有更好的应用能力,开放测试准确率为82.95%.另一种方法依赖人名上下文,从Hownet和网络挖掘分别抽取男、女性别指示词,采用在百度检索人名的结果中对性别指示词计数来获得对应的性别.对81个人名的测试,准确率达到96.3%.结果显示Hownet的性别指示词具有较好的通用性,网络挖掘的性别指示词具有较好的领域适应性.
性别识别 贝叶斯方法 性别指示词 网络挖掘 自然语言处理 信息检索
郎君 秦兵 刘挺 李生
哈尔滨工业大学信息检索研究室,哈尔滨,150001
国内会议
沈阳
中文
166-171
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)