数学定义
关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务t是I的非空子集,即,每一个交易都与一个唯一的标识符TID对应。记D为事务的集合(事务数据库),关联规则在D中的支持度是D中事务同时包含项X和项Y的百分比,即概率。置信度是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有效的,如果满足最小支持度阈值和最小置信度阈值,这些阈值是根据挖掘需要人为设定的。
下面是有关关联规则数学上的形式化定义:
设I={il,i2,...,im}是项的集合。记D为事务的集合(事务数据库),事务T是项的集合,并且T⊆I。设A是I中一个项集,如果A⊆T,那么称事务T包含A。
定义1:关联规则是形如A→B的蕴涵式,这里A⊂T, B⊂I,并且A∩B=Φ。
定义2:规则的支持度。规则A→B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:
其中,|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。
定义3:规则的可信度。
规则A→B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(BIA),即:
其中,|A|表示数据库中包含项集A的事务个数。
定义4:阈值。
在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。
定义5:项的集合称为项集,包含k个项的项集称之为k-项集。如果项集满足最小支持度,则称之为频繁项集。
定义6:关联规则。
同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则。即:
成立时,规则称之为关联规则,也可以称为强关联规则。
定义7:兴趣度。
公式反映了项集A与项集B的相关程度。
若I(A→B)=1,即P(AB) = P(A)P(B),表示项集A出现和项集B出现是相互独立的。
若I(A→B)<1,表示A出现和B出现是负相关的。
若I(A→B),表示A出现和B出现是正相关的,意味着A的出现蕴含B的出现。
一条规则的兴趣度越大于1,说明我们对这条规则越感兴趣(即其实际利用价值越大)。
一条规则的兴趣度越小于1,说明我们对这条规则的反面规则越感兴趣(即其反面规则的实际利用价值越大)。
根据定义7可知,兴趣度I不小于0。