1、数据挖掘主要模型分类
分类模型的主要功能是根据数据的属性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属性,并找出数据的属性模型,确定哪些数据模型属于哪些组。这样我们就可以利用该模型来分析己有数据,并预测新数据将属于哪一个组。
分类模型在量化投资中应用的实例很多,例如,我们可以将上市公司的资产质量分为好、一般和较差3种类型,并以此分析这3种类型上市公司的各种属性,特别是行业地位、盈利能力、负债情况等属性,找出决定它们分类的关键属性及相互关系,然后就可以根据这些关键属性对每一个预期的上市公司进行分析,以便决定预期该上市公司属于哪一种类型。
2、关联模型
关联模型主要描述一组数据项目的密切度或关系,关系或规则是用一些最小置信度级别来描述的,置信度级别度量了关联规则的强度。关联模型在量化投资中的一个典型例子是行业轮动分析,即通过挖掘数据派生关联规则,利用此规则可以了解投资者在股市投资的轮动行为,例如,当石油化工板块出现上涨的时候,可能会同时拉动煤炭板块上涨,因为这两个板块同属能源行业,如果石油价格上涨,则会使得煤炭的价格跟随上涨,因此会出现这两个行业具有很强的关联度,同涨同跌的现象。这样在投资活动中,如果发现石油化工板块开始上涨,则根据关联模型,可以买入煤炭板块的股票,等待该板块的股票补涨。
3、顺序模型
顺序模型主要用于分析数据中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。例如,通过数据分析发现,某个股票的筹码在某段时间内持续集中的态势,也就是说,股东人数在不断减少,意味着股份有向大投资者集中的趋势,则在未来一段时间,可能该股票出现上涨,或者有超越大盘的表现,那么,就可以监控并跟踪这种类型的股票,并进行相应的投资交易,以在未来一段时间获得绝对收益或者超额收益。顺序模型可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。
4、聚类模型
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类模型。聚类模型是按照某种相近程度度量方法将用户数据分成互不相同的一些分组。聚类即由一系列相近数据组成的分组的集合,每一个分组中的数据相近,不同分组之间的数据相差较大。聚类模型是一种很强大的技术,其核心就是将某些明显的相近程度测量方法转换成定量测试方法。
采用聚类模型,系统可以根据部分数据发现规律,找出对全体数据的描述。例如,我们可以采用聚类模型对股票的市场表现进行分析。比如发现有一类曾经出现大幅上涨的股票,当回调30%以后,会再次出现上涨,并且这种概率非常大,那么这种聚类模型就可以用来指导实际的投资交易。