利用CRF实现中文人名性别的自动识别
受传统观念的影响,中国入名最后一个或两个字的用法对性别判定通常具有一定的指示作用,由此提出利用条件随机场模型来实现中文人名性别的自动识别。该机器学习方法根据人名的结构和用字信息,构建人名标注集,选择6组不同的特征模板集,利用条件随机场模型,在231 337个人名数据库中经过封闭测试,正确率可以达到89.30%,比采用朴素贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点。实验证明:在人名库中识别性别,名字尾字的作用要高于姓氏用字,且女性人名性别识别的准确度要略高于男性,一般是高2至3个百分点,从机器学习的角度来说性别差异可以体现在人名用字中。通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律,这为后续的研究工作提供了基础。
中文信息处理 性别识别 中文人名要素 命名实体识别 特征选择 条件随机场
赵晓凡 赵丹 刘永革
安阳师范学院计算机与信息工程学院,河南 安阳 455002 郑州大学计算中心,河南 郑州 455000
国内会议
徐州
中文
122-124,128
2011-10-22(万方平台首次上网日期,不代表论文的发表时间)