一种自学习的中文地址判重算法

摘要：

随着中文搜索引擎技术和海量数据挖掘技术的飞速发展,高效精确的中文地址判重技术作为其核心技术之一已成为学术界研究的焦点和热点.目前,面向中文的地址判重研究还尚未充分展开,且现有工作在判断同一地址的多种表述时均依赖领域知识,导致判重能力严重受限.据此,本文提出一种自学习的中文地址判重方法。算法引入地址规范度的概念,用于描述某个地址符合规范的程度,通过计算中文地址的规范度对规范的地址提取可能存在的冗余信息,程序自我学习并用于后续判断.实验表明,此算法在保证解析精度的前提下,显著降低了地址判重中误判漏判的比例.

关键词：数据清洗数据判重自学习地址判重搜索引擎数据挖掘

作者: 周佳庆李晓燕陈珂胡天磊陈刚

作者单位: 浙江大学计算机学院杭州 310027

会议类型: 国内会议

会议名称: 第二十五届中国数据库学术会议(NDBC2008)

会议地点: 桂林

会议语种:中文

页码: 119-122

在线出版日期: 2008-10-24（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种自学习的中文地址判重算法