基于索引过滤的汉语短文本模糊匹配计算方法

摘要：

在当前的中文信息处理中，对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发，提出了基于索引过滤的中文短文本模糊匹配计算方法，包括长度过滤和字命中过滤两种方法，能够大大地减少模糊匹配的计算量。实验表明，本文提出的算法在不影响召回率的前提下，能够极大地减少模糊匹配任务的计算时间。

关键词：编辑距离汉语短文本模糊匹配索引过滤中文信息处理

作者: 曹犟邬晓钧夏云庆郑方

作者单位: 清华大学计算机科学与技术系,北京 100084 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,北京 100084 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,北京 100084

会议类型: 国内会议

会议名称: 第十届全国人机语音通讯学术会议

会议地点: 乌鲁木齐

会议语种:中文

页码: 181-185

在线出版日期: 2009-08-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于索引过滤的汉语短文本模糊匹配计算方法