孤立点是指一个数据集与其他数据有着显著区别的数据对象的集合。例如运动员:乔丹、舒马赫、布勃卡。
孤立点挖掘的过程是:给定一个n个数据对象的集合,以及预期的孤立点数目k,发现与剩余的数据有着显著差异的k个数据对象。
孤立点挖掘的主要应用在:信用卡欺诈检测、移动电话欺诈检测、客户划分、医疗分析(异常)。
1)基于距离的孤立点检测
为了解决统计学方法带来的一些限制,引入了基于距离的孤立点检测,在不知道数据分布的情况下对数据进行多维分析。
基于距离的孤立点是指:数据集合S中的基于距离的孤立点o的集合可以表示为DB(p,d),即数据集合S中的对象至少有p部分与对象o的距离大于d(说明该对象o没有足够的邻居)。
挖掘墓于距离的孤立点的高效算法有:基于索引的算法、嵌套一循环算法、基于单元的算法等。
2)基于偏离的孤立点检测
通过检查一组对象的主要特征来确立孤立点,即与主要特征的描述相偏离的对象被认为是孤立点。
基于偏离的孤立点的探测技术有如下两种:
(1)序列异常技术:模仿人类从一系列被假定为类似的对象中识别异常对象的方式。
(2)OLAP数据立方体技术:在大规模的多维数据中采用数据立方体来确定异常区域。如果一个立方体的单元值显著地不同于根据统计模型得到的期望值,则该单元值被认为是一个异常,并用可视化技术表示。