一种基于加权投票的术语自动识别方法
术语自动识别是获取领域术语表中未登录的规范化词汇的方法,并且是信息抽取、文本挖掘等领域的重要任务。近年来,基于统计分析的术语抽取方法取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种方法进行加权投票的研究相对较少。本文首先从大量已知术语中收集术语的词性模板,并借之抽取候选术语,接着利用了加权投票算法对这些候选术语进行排序。在IEEE2006-2007电子工程领域文献上的实验结果表明,加权投票方法比任何单一方法的识别效果更好。
自动术语识别 投票算法 信息抽取 文本挖掘
张巍 游宏梁 张吉才
北京文献服务处,北京,100142
国内会议
黑龙江镜泊湖
中文
513-520
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)