聚类分析基本概念
聚类(簇)是指数据对象的集合。
聚类有如下两个特征:在同一个聚类(簇)中的对象彼此相似、不同簇中的对象则相异。
聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
聚类是一种无指导的学习:没有预定义的类编号。
聚类分析的数据挖掘功能既可以作为一个独立的工具来获得数据分布的情况,也可以作为其他算法(如特征和分类)的预处理步骤。
聚类分析的典型应用包括:
(1)模式识别。
(2)空间数据分析:在GIS系统中,对相似区域进行聚类,产生主题地图;检测空间聚类,并给出它们在空间数据挖掘中的解释;图像处理等。
(3)经济学与金融学,如客户行为分类、发现股票模式等。
(4)万维网:对Web上的文档进行分类;对Web日志的数据进行聚类,以发现相同的用户访问模式。
一个好的聚类分析方法会产生高质量的聚类,该聚类具有两个特征:高类内相似度和低类间相似度。一个高质量的聚类分析结果,将取决于所使用的聚类方法。