基于多重索引模型的大规模词典近似匹配算法
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立Unigram、Bigram、Trigram、Quadgram中的一种或若干种索引,当查找用户模式尸的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R。实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度。
模式匹配 近似匹配 多重索引模型 大规模词典
龚才春 黄玉兰 许洪波 白硕
中国科学院计算技术研究所信息智能与信息安全中心,北京 100080;中国科学院研究生院,北京 100039 中国科学院计算技术研究所信息智能与信息安全中心,北京 100080
国内会议
苏州
中文
333-339
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)