会议专题

基于INTERNET信息抽取模式的自动获取

模式(Pattern)通常也称作规则(rule),是整个信息抽取系统的基础.模式的自动获取不仅能极大的减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都是至关重要的.本文提出的基于INTERNET模式自动获取方法是采用开放的训练语料库,借助模式和实例之间的二元性,不断地从INTERNET获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点.针对采用开放语料,本文提出了一种通过机器学习使用统计模型来自动选取用于模式抽取的正反实例的方法.根据我们在投资领域的模式抽取,该方法是正确和可行的,模式抽取的平均查准率达到92%,平均召回率达到42.4%.

模式自动生成 基于Internet 开放语料库 正反实例判断 模式二元性

曾兴杰 李芳 张冬荣

上海交通大学计算机系(上海)

国内会议

2003中国计算机大会

北京

中文

10-16

2003-11-01(万方平台首次上网日期,不代表论文的发表时间)