학술논문

基于迭代二分聚类的K-匿名机制 / K-anonymity Mechanism Based on Iterative Binary Clustering
Document Type
Academic Journal
Source
信息安全研究 / Journal of Information Securyity Research. 9(5):402-411
Subject
迭代优化
二分聚类
隐私保护
K-匿名
概化
Language
Chinese
ISSN
2096-1057
Abstract
随着数据共享在各个领域的深入应用,对于数据所包含的个体隐私保护问题日益突出,同时K-匿名作为一种隐私保护的先进理论也被广泛应用于数据的共享与分发.但是K-匿名作为一种通过概化数据实现隐私保护的方式,不可避免地会造成一定的信息损失,因此如何在满足K-匿名的前提下,尽可能保证数据可用性、减少信息损失量则是一个值得研究的问题.对于此,针对数值型数据提出了一种基于迭代二分聚类的K-匿名算法KABIBC(K-anonymous algorithm based on iterative binary clustering)实现 K-匿名.首先定义了组内距离之和 WGSD(within-group sum of distance),并将数据表中的所有元组视为一个聚类,而后采用迭代的策略对其进行二分聚类,对于得到的子聚类采用同样的方式递归进行处理,并且在二分聚类时基于最小化信息损失量的原则合理调整2个子聚类的元组分配,直到得到满足K-匿名要求的最小子聚类,从而保证信息损失量趋于最优.给出了理论和实验分析,表明此机制有效减少了信息损失,同时有较高的运行效率.