基于聚类的高效k-匿名化算法

摘要：

KACA算法是一种较好的基于局部重编码的k-匿名化算法，它产生的匿名化微数据的信息损失少，数据可用性高．但该算法的效率低，不适合匿名化规模很大的微数据．为解决该问题，将高效的聚类算法——c-mocles算法——与KACA算法结合，提出了c-mocles-KACA算法．该算法首先采用c-modes算法将整个数据集划分为较大的类，然后采用KACA算法来分别k-匿名化这些类中元组数大于2k-1的类.实验表明，c-modes-KACA算法产生的信息损失量与KACA算法相近，效率却比KACA算法高得多．

关键词：高效k-匿名化算法 KACA算法信息损失数据库聚类

作者: 于娟韩建民郭腾芳夏赞珠

作者单位: 浙江师范大学数理与信息工程学院浙江金华 321004

会议类型: 国内会议

会议名称: NDBC2009第26届中国数据库学术会议

会议地点: 南昌

会议语种:中文

页码: 105-111

在线出版日期: 2009-10-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于聚类的高效k-匿名化算法