关联规则
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。
基本概念
1)什么是关联规则
在描述有关关联规则的一些细节之前,先来看一个有趣的故事:“尿布与啤酒”在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据了进行分析和挖掘。
一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒”。经过大量实际调查和分析,揭示了隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对海量交易数据进行挖掘和分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
从这个例子可以看出,利用关联规则技术,可以找出一些隐含的规律,因此这种方法在量化投资中同样存在广泛的应用。
2)关联规则例子
用一个简单的例子说明。表11-2是在过去一段时间,不同板块的涨跌关系,其中“I”表示上涨,“0”表示下跌,在该市场行情数据库中,事务总数为D,在本例子中,包含6个事务,则D为6。项集I={煤炭板块,原油板块,公用板块,地产板块}。考虑关联规则(频繁二项集)::煤炭板块与原油板块,上涨记录1, 2, 3, 4, 6中包含煤炭板块,记为X, X的数量为5;上涨记录1, 2, 5, 6中包含原油板块,记为Y, Y的值为4。
表11-2 关联规则案例数据表
上涨记录1, 2, 6同时包含煤炭板块和原油板块,数量为3,即X∧Y,那么:
支持度(X∧Y)/D=3/6=0.5,
置信度(X∧Y)/X=0.6。
若给定最小支持度α=0.5,最小置信度β=0.6,认为煤炭板块上涨和原油板块上涨之间存在关联规则如下:
煤炭板块上涨→4原油板块上涨(0.5,0.6)
该关联规则的含义是:数据库中有50%的数据支持表明,煤炭板块的上涨可能带动原油板块上涨,该规则可信程度达到60%。