会议专题

基于句法特征的模糊词辖域的识别方法

文本中模糊词及其辖域的识别对于信息的准确抽取有着重要的作用,但是目前机器学习的方法采用的特征都是基于序列的。本文将模糊词辖域的识别问题看作是分类问题,采用条件随机场模型来进行学习。在基本的序列特征基础上,引入两种句法特征(短语树和依存树)作为分类器的特征,并分别比较两种特征对结果的影响。在后处理阶段,我们引入了一个匹配算法对来识别句子中所有模糊词的辖域。在CoNLL2010shared task的生物文本数据上的实验显示,采用句法特征的分类器比只采用基本序列特征的F1值提高了2.36个百分点。

模糊词 辖域识别 条件随机场 句法特征 分类器

李鑫鑫 王轩 沈剑平 高翔

哈尔滨工业大学深圳研究生院,深圳,518055

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

425-432

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)