基于相似计算的信息抽取模板自动获取方法

摘要：

网上信息的爆炸式增长使信息抽取成为一个热点研究课题.传统的信息抽取系统通常需要专家手工书写模板.尽管目前模板获取的自动化程度有了大幅度的提高,人们仍然要手工标注大量的训练文本.本文提出了一种基于相似计算的纯文本信息抽取模板自动获取方法.根据给定的种子模板,从大规模的无标注的训练文本中可以自动学习相关的模板,生成的模板几乎不需人工处理就可以直接应用.与其他方法相比,本方法无需人工标注训练语料,节约了大量人为劳动.实验结果表明在开放测试中自动获取的模板正确率达到79.45﹪,召回率达到66.51﹪.

关键词：信息抽取模板获取相似计算特征词种子模板

作者: 叶娜吴雪军朱靖波陈文亮

作者单位: 东北大学自然语言处理实验室(辽宁沈阳)

会议类型: 国内会议

会议名称: 第二届全国学生计算语言学研讨会

会议地点: 北京

会议语种:中文

页码: 434-439

在线出版日期: 2004-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于相似计算的信息抽取模板自动获取方法