会议专题

搜索引擎用短语词典建设

百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音.委托北京大学计算语言学研究所进行了手工整理标注.为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性.共整理短语119 984条,噪音短语比例约占7﹪.当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。

搜索引擎 语言资源 短语词典 中文分词系统 标注 短语库

吕学强 苏祺 孙斌 俞士汶

北京大学,计算语言学研究所,北京,100871;北京信息科技大学,中文信息处理研究中心,北京,100101 北京大学,计算语言学研究所,北京,100871

国内会议

第三届全国搜索引擎和网上信息挖掘学术研讨会

北京

中文

1892-1895

2005-09-26(万方平台首次上网日期,不代表论文的发表时间)