会议专题

一种自学习的中文地址判重算法

随着中文搜索引擎技术和海量数据挖掘技术的飞速发展,高效精确的中文地址判重技术作为其核心技术之一已成为学术界研究的焦点和热点.目前,面向中文的地址判重研究还尚未充分展开,且现有工作在判断同一地址的多种表述时均依赖领域知识,导致判重能力严重受限.据此,本文提出一种自学习的中文地址判重方法。算法引入地址规范度的概念,用于描述某个地址符合规范的程度,通过计算中文地址的规范度对规范的地址提取可能存在的冗余信息,程序自我学习并用于后续判断.实验表明,此算法在保证解析精度的前提下,显著降低了地址判重中误判漏判的比例.

数据清洗 数据判重 自学习 地址判重 搜索引擎 数据挖掘

周佳庆 李晓燕 陈珂 胡天磊 陈刚

浙江大学计算机学院 杭州 310027

国内会议

第二十五届中国数据库学术会议(NDBC2008)

桂林

中文

119-122

2008-10-24(万方平台首次上网日期,不代表论文的发表时间)