会议专题

海量规模中文网络信息检索评测语料库的设计与实现

互联网信息的爆炸性增长使得每个人都可能访问到海量的网络信息,从互联网宝库中高效率的获取最有用的知识因而成为了当今时代最重要的技能之一。互联网搜索引擎的发展使得普通人也能够极为方便的高效获取知识,而网络信息检索技术也成为了计算机应用领域最热门的研究方向之一。信息检索是一门重视实证的学科,每一种新技术的提出,都必须同时设计相对应的评价方式对技术的性能加以验证,因此信息检索标准评测语料库一直对于信息检索技术的发展起到了巨大的推动作用。本报告将回顾网络信息检索评测语料库的发展历史与现状、总结相关语料库发展中的经验和教训,并分析当前中文网络信息检索评测语料库设计和实现中面临的种种问题,报告将介绍SogouT语料库为解决这些问题而独特设计的构建方法、语料库的主要特性和获取方式,同时也会介绍“搜索仪”网络检索在线评测平台的设计思路和使用方法。

语料库 信息检索 搜索引擎 网络信息

马少平 刘奕群

清华大学,智能技术与系统国家重点实验室

国内会议

中国中文信息学会成立二十七周年学术会议(CIPS2008)

北京

中文

1-1

2008-11-24(万方平台首次上网日期,不代表论文的发表时间)