会议专题

Web文本检索中信息的分布特性与检索策略研究

本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综合考虑四种信息的分布特性,将不同的检索策略结合起来,可有效地大幅度改善检索性能.

Web信息检索 检索模型 主特征空间 分段检索 链接文字 URL 网页分布

张敏 马少平

清华大学计算机系智能技术与系统国家重点实验室

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

137-144

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)