학술논문

基于候选中心融合的多观测点I-nice聚类算法 / Multi-observation I-nice Clustering Algorithm Based on Candidate Centers Fusion
Document Type
Academic Journal
Source
模式识别与人工智能 / Pattern Recognition and Artificial Intelligence. 35(4):348-362
Subject
无监督学习
观测点
I-nice
无参聚类
高斯混合模型
Language
Chinese
ISSN
1003-6059
Abstract
伴随着问题场景数据在规模上的快速增长和构成上的复杂化,精确估计簇的个数和簇的中心点是当下聚类算法处理和分析复杂大规模数据的重要挑战.簇数及簇心的精确估计对于部分有参聚类算法、数据集整体复杂性度量和数据简化表示等都十分关键.文中在深入分析I-nice的基础上,提出基于候选中心融合的多观测点I-nice聚类算法.在原多观测点投影分治框架上采用混合高斯模型(Gaussian Mixture Model,GMM),结合粗细粒度最佳GMM搜索策略,实现数据子集的精确划分.此外,基于候选中心点分别到各观测点的距离值及最佳GMM,构造候选中心点的GMM构件向量,并设计一组闵可夫斯基距离对进行候选中心点间的相异度度量,实现基于GMM构件向量相异度的多观测点I-nice候选中心融合.不同于现有聚类算法,文中算法联合优化分治环节数据子集划分和候选中心集成这两个关键过程,实现成百上千个簇的精确高效估计.在真实数据集和仿真数据集上的一系列实验表明,文中算法能精确估计簇数和簇中心,具备较高的聚类精度.实验同时验证算法的有效性及在各类数据场景下的稳定性.