会议专题

基于伪相关反馈模型的领域词典生成算法

本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:对于给定的领域语料C,对于发现的有意串S,如果S是C的领域术语,则称S与C相关。假设初始检索出来的前若干个结果与C相关,将结果加到词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。

有意串 领域词典 大规模语料 伪相关反馈

黄玉兰 龚才春 许洪波 程学旗

中国科学院计算技术研究所 北京 100080;中国科学院研究生院 北京 100080 中国科学院计算技术研究所 北京 100080

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

582-588

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)