一种基于可信度的人名识别方法
专名识别是中文自动分词的重要任务.本文分析了目前流行的基本语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法.从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的开放测试结果来看,基于可信度的人名识别方法比SLM方法识别效果有较大的提高,同时比基于规则和知识库的分词系统具有更好的扩充性.
自动分词 人名识别 统计语言 中文自动分词 语料库
罗智勇 宋柔 荀恩东
北京工业大学计算机学院(北京);北京语言大学语言信息处理研究所(北京) 北京语言大学语言信息处理研究所(北京)
国内会议
北京
中文
52-57
2004-08-01(万方平台首次上网日期,不代表论文的发表时间)