主要聚类方法有:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。
1)划分方法
划分方法的思想:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k≤n;每个对象属于且仅属于一个组,每个组至少包含一个对象。
划分准则:同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同。
典型的划分方法有k-平均算法、k中心点方法和它们的变种。
2)层次的方法
对给定数据对象集合进行层次分解,包括自底向上和自顶向下方法。
(1)自底向上方法(凝聚):开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件。
(2)自顶向下方法(分裂):开始将所有的对象置于一个簇中,在迭代的每一步,
一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件。
缺点:合并或分裂的步骤不能被撤销。
使用距离矩阵作为聚类准则,层次方法不必输入初始的k作为簇的个数,但需要一个终止条件(例如簇的数目)。
3)基于密度的方法
基于密度的据类:只要临近区域的密度(对象或数据点的数目)超过某个临界值,就继续聚类。
优点:可以过涟掉噪声和孤立点,发现任意形状的簇。
4)基于网格的方法
把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类都在这个网格结构上进行。
优点:处理速度快(因为处理时间独立于数据对象数目,只与量化空间中每一维的单元数目有关)。
5)基于模型的方法
为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。