数据挖掘,习惯上又称为数据序中知识发现(KDD),也有人把数据挖相视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下3个阶段组成:数据准备、数据挖掘、结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘主要有分类模型、关联模型、顺序模型、聚类模型等。
(1)分类模型的主要功能是根据金融数据的属性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属性,并找出数据的属性模 型,确定哪些数据模型属于哪些组,这样我们就可以利用该模型来分析己有数据,并预测新数据将属于哪一个组。
(2)关联模型主要是描述了一组数据项目的密切度或关系。关系或规则总是用一些最小置信度级别来描述的,置信度级别度量了关联规则的强度。
(3)顺序模型主要用于分析数据中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。
(4)聚类模型即按照某种相近程度度量方法将用户数据分成互不相同的一些分组。聚类即一系列相近数据组成的分组的集合,每一个分组中的数据相近,不同分组之间的数据相差较大。
数据挖掘的主要方法有:神经网络、决策树、联机分析处理、数据可视化等。
数据挖掘在量化投资中主要有利用聚类技术进行股市规律挖掘,以及基于关联规则的板块轮动等。
把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,把模式所属的类别或同一类中模式的总体称为模式类。利用聚类技术进行股市规律研究,就是将股市走势分成不同的模式,从而可以进行相应的交易策略。
在股价波动的过程中,整个市场并不是经常性地普涨普跌,而是呈现出板块轮动、涨跌不一的状况。利用关联规则技术,发现股票板块的运动规律及其相互的联动关系,就可以在轮动点上进行相应的调仓,从而获得超额收益。
基本概念
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
数据挖掘利用了来自如下一些领域的思想:
①来自统计学的抽样、估计和假设检验;
②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,包括最优化、进化计算、信息论、信号处理、可视化和信息检索。与此同时,一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面是很重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。