中文命名实体识别系统的领域扩展
本文利用条件随机场模型实现了一个金融领域到通用新闻领域的中文命名实体识别系统领域扩展方案,并对如利用分词和词性标注信息进行了深入的研究。原系统针对金融领域,在分词阶段利用各类专名词典识别专名,然后利用独立的基于人工规则的模块识别公司名。本文利用条件随机场在领域扩展的情况下改善了中文命名实体的识别性能。在ACE命名实体识别评测数据、人民日报语料库、金融新闻语料库上进行初步实验表明,扩展后的系统在金融和通用新闻领域均可以达到较高的召回率和准确性。
命名实体识别 领域扩展 条件随机场 词性标注 语料库
徐薇 付滨 刘柳 苑春法 李文捷
清华大学计算机科学与技术系 北京 100084 香港理工大学计算系 香港
国内会议
大连
中文
503-508
2007-08-06(万方平台首次上网日期,不代表论文的发表时间)