基于单字提示特征的中文命名实体识别快速算法
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
中文命名实体识别 条件随机场 自然语言处理 机器学习 中文信息处理
冯元勇 孙乐 张大鲲 李文波
中国科学院软件研究所基础软件中心,北京 100080;中国科学院研究生院,北京 100080 中国科学院软件研究所基础软件中心,北京 100080
国内会议
苏州
中文
575-281
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)