基于索引过滤的汉语短文本模糊匹配计算方法
在当前的中文信息处理中,对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发,提出了基于索引过滤的中文短文本模糊匹配计算方法,包括长度过滤和字命中过滤两种方法,能够大大地减少模糊匹配的计算量。实验表明,本文提出的算法在不影响召回率的前提下,能够极大地减少模糊匹配任务的计算时间。
编辑距离 汉语短文本 模糊匹配 索引过滤 中文信息处理
曹犟 邬晓钧 夏云庆 郑方
清华大学 计算机科学与技术系,北京 100084 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,北京 100084 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,北京 100084
国内会议
乌鲁木齐
中文
181-185
2009-08-14(万方平台首次上网日期,不代表论文的发表时间)