基于关联链条件随机场的征稿信息抽取
科技工作者为了能够追踪前沿,提高科研水平,必须时刻关注与其研究相关的会议信息,这些信息一般通过邮件的形式发布征稿通知。因此,如何自动提取邮件中征稿通知的信息显得十分重要。传统方法大多只是根据短距离局部信息将一组词标注为某一征稿信息要素,缺乏对整个邮件长距离信息的利用。条件随机场是目前序列标注的经典模型,但是其仅能处理短距离依赖关系,缺乏对长距离依赖关系的支持。针对该问题,提出一种基于关联链条件随机场的征稿通知抽取方法。该方法通过在相似词汇之间增加关联链扩展传统条件随机场模型,实现征稿信息的自动抽取。在抽取过程中,组合了多种特征,包括通用的文本串特征、领域词典和样式特征等。通过大量的实验表明,所提出的方法具有较高的准确率。
信息抽取 征稿通知 关联链条件随机场 特征构建 性能优化
邱芬
江苏联合职业技术学院徐州财经分院信息技术系 徐州 221008
国内会议
第十一届中国Rough集与软计算学术会议、第五届中国Web智能学术研讨会及第五届中国粒计算学术研讨会联合学术会议
南京
中文
129-133
2011-11-01(万方平台首次上网日期,不代表论文的发表时间)