搜索引擎用短语词典建设
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音.委托北京大学计算语言学研究所进行了手工整理标注.为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性.共整理短语119 984条,噪音短语比例约占7﹪.当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
搜索引擎 语言资源 短语词典 中文分词系统 标注 短语库
吕学强 苏祺 孙斌 俞士汶
北京大学,计算语言学研究所,北京,100871;北京信息科技大学,中文信息处理研究中心,北京,100101 北京大学,计算语言学研究所,北京,100871
国内会议
北京
中文
1892-1895
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)