一种基于HTML位置信息的查询扩展技术
查询扩展是指对用户提供的有关实体属性查询的描述进行语义上同义或近义方面的扩展.针对信息检索中文档与查询之间的词不匹配问题,本文提出一种基于HTML位置信息的查询扩展方法.由于HTML文件中存在位置信息(即Tag标签信息),所以,选择HTML文件进行查询扩展,相对于选择纯文本文件来说效果更好.本文中利用现有的各大搜索引擎的搜索结果组成训练语料,且利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量.最后,使用标准的向量空间模型(VSM)作为检索算法,将使用位置信息进行查询扩展与不加查询扩展及使用查询扩展的效果进行比对.该查询扩展技术对于查询短小、文档集内容比较分散的情况应尤为适用,可以极大地提高查询效果.同时,利用HTML中的位置信息,能够更好得对查询进行扩展.
信息检索 查询扩展 位置信息 HTML文件 向量空间模型
陈志玮 肖诗斌 施水才 王昕
北京信息科技大学中文信息研究中心,北京,100101 中船建筑工程设计研究院,北京,100101
国内会议
沈阳
中文
410-413
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)