会议专题

维吾尔文Web信息检索中基于改进VSM的文档表示及相似度研究

基于向量空间模型的信息检索技术中,用向量空间模型来表示Web文档,以索引词权重作为主要依据进行用户查询与Web文档之间的相似度计算,并根据相似度大小进行查询结果的排序。本文在传统TFIDF的基础上,用索引词的位置加权系数对权值进行调整,综合考虑索引词权重、索引词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献,进行了用户查询与Web文档相似度度量。在维吾尔文搜索引擎中测试实验,结果表明,改进的方法明显提高了Web信息检索系统的查准率、查全率和输出结果的排序能力。

信息检索 向量空间模型 权重 相似度

吐尔地·托合提 维尼拉·木沙江 艾斯卡尔·艾木都拉

新疆大学信息科学与工程学院,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046

国内会议

第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会

乌鲁木齐

中文

120-124

2010-06-27(万方平台首次上网日期,不代表论文的发表时间)