命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?
命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法(word-based);但是能不能不分词而直接识别呢(character-based)?识别效果又怎样?另外需要考虑的问题是,在识别时,是应该分别建立模型(one-at-a-time)识别不同类型的实体,还是用一个统一的模型来同时(all-at-once)识别所有的实体呢?本文对上述问题作了深入的研究,发现all-at-once,character-based方法的识别结果最好,而one-at-a-time,character-based方法虽然在机构名的识别上略差,但模型总的训练时间比all-at-once短很多.另外,本文实体识别是基于CRF模型,尽管只用了简单的特征模板,但对于人名地名,F-measure在90%左右,机构名87%左右.
中文命名 CRF模型 实体识别 特征模板 文本分词
余军 陈晓鸥
北京大学计算机科学技术研究所,北京,100871
国内会议
武汉
中文
409-414
2007-10-13(万方平台首次上网日期,不代表论文的发表时间)