基于相似计算的信息抽取模板自动获取方法
网上信息的爆炸式增长使信息抽取成为一个热点研究课题.传统的信息抽取系统通常需要专家手工书写模板.尽管目前模板获取的自动化程度有了大幅度的提高,人们仍然要手工标注大量的训练文本.本文提出了一种基于相似计算的纯文本信息抽取模板自动获取方法.根据给定的种子模板,从大规模的无标注的训练文本中可以自动学习相关的模板,生成的模板几乎不需人工处理就可以直接应用.与其他方法相比,本方法无需人工标注训练语料,节约了大量人为劳动.实验结果表明在开放测试中自动获取的模板正确率达到79.45﹪,召回率达到66.51﹪.
信息抽取 模板获取 相似计算 特征词 种子模板
叶娜 吴雪军 朱靖波 陈文亮
东北大学自然语言处理实验室(辽宁沈阳)
国内会议
北京
中文
434-439
2004-08-01(万方平台首次上网日期,不代表论文的发表时间)