1)挖掘过程
关联规则的挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组;第二阶段再由这些高频项目组中产生关联规则。
关联规则挖掘的第一阶段是从原始资料集合中找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言必须达到某一水平。一项目组出现的频率称为支持度,以一个包含A与B两个项目的2-itemset为例,我们可以由定义2求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组,一般表示为Frequent k。算法从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖捆的第二阶段是要产生关联规则。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如,经高频k-项目组{A,B}所产生的规则AB,其信赖度可经由定义3求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
2)关联规则分类
按照不同情况,关联规则可以进行如下分类:
(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。
例如:
类别=“大蓝筹”→涨幅=“弱于大势”,是布尔型关联规则。
类别=“大蓝筹”→avg(阿尔法)=-10%,涉及的收入是数值类型,是一个数值型关联规则。
(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同层次的。而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如,央企→分红率高,是一个细节数据上的单层关联规则;国企→分红率高,是一个较高层次和细节层次之间的多层关联规则。
(3)基于规则中涉及的数据的维数,关联规则可以分为单维的和多维的。
在单维的关联规则中,我们只涉及数据的一个维,如投资者购买的股票,而在多维的关联规则中,要处理的数据将会涉及多个维。换句话说,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如,大蓝筹涨→小盘股跌,这条规则只涉及投资者购买的股票类别;类别=“大蓝筹”→涨幅=“弱于大势”,这条规则就涉及两个字段的信息,是两个维上的一条关联规则。