数据挖掘典型方法
针对上述应用类型,数据挖掘领域提出了多种实现方式与算法,并推出了相应的商业化软件及工具,这里仅讨论几种常见的、典型的实现方法。
1、神经网络
神经网络建立在可以自学习的数学模型的基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。
神经网络系统由一系列类似于人脑神经元一样的处理单元组成,称之为节点。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。
神经网络系统也存在着如下问题:首先,神经网络虽然对分类模型比较适合,但是神经网络的隐含层可以说是一个黑盒子,得出结论的因素并不十分明显。同时其输出结果也没有任何解释,这将影响结果的可信度及可接受程度。其次,神经网络需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。
2、决策树
决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,不像神经网络那样不易理解,同时系统也不需要长时间的构造过程,因此比较常用。然而,采用决策树方法也有其缺点,决策树方法很难基于多个变量组合发现规则,不同决策树分支之间的分裂也不平滑。
3、联机分析处理
联机分析处理(OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(OLTP )应用。OLTP应用主要用来完成用户的事务处理,如民航订票系统、银行储蓄系统等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对上市公司财务风险的分析与预测、公句市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。
4、数据可视化
数据仓库中包含大量的数据,并且充实着各种数据模型,若将如此大量的数据可视化则需要复杂的数据可视化工具。数据挖掘和数据可视化可以很好地协作。就数据可视化系统本身而言,由于数据仓库中的数据量很大,很容易使分析人员变得不知所措,数据挖掘工具可以设定通过富有成效的探索的起点并按恰当的隐喻来表示数据,为数据分析人员提供很好的帮助。
在目前量化投资领域,使用得最多的方法主要是分类模型、关联规则和聚类分析者3种,下面分别进行详细讨论。