一种自适应字长的中文词库的构建方法
中文搜索引擎中的词库是提高文本信息存储与查找效率的关键。本文以异或哈希算法为基础,根据对不同字长词出现概率的统计结果,利用词条的机内编码和汉字笔画数,把不同字长的词散列到不同的哈希值区间,从而将哈希值的冲突率降低到0.034%,进一步提高了查找效率。文中大规模动态词库的建立方法可用于计算机语料库建设和中文输入法等自然语言处理过程。
异或算法 哈希函数 中文词库 自适应字长
王启户 詹海生 周水生
西安电子科技大学 计算机学院,西安,710001
国内会议
苏州
中文
377-383
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)