会议专题

可分义原向量空间中的跨语种文本过滤模型

本文介绍一个可以从中文或英文大量的信息中过滤出用户的兴趣所在的文档的模型,该模型采用向量空间的方式,从用户提供的文档中学习,用可分义原向量空间的一个向量来表示用户所感兴趣的文本,然后把需要处理的文本也表示成一个可分义原空间中的一个向量,利用两个向量之间的夹角来判断两个向量的相似度从而决定是否将该文本呈现给用户.实验证明,这是一个比较好的过滤方法.

可分义原 向量空间 文本表示 文本过滤 信息检索

苏伟峰 李绍滋 李堂秋 尤文建

厦门大学计算机系

国内会议

全国第六届计算语言学联合学术会议

太原

中文

359-366

2001-08-04(万方平台首次上网日期,不代表论文的发表时间)