数据挖掘主要内容
分类与预测
分类技术在量化投资的很多领域都有应用,例如,可以通过上市公司分类构造一个分类模型来对上市公司的资产质量进行风险评估,将上市公司分成不同的类别,如优质蓝筹股、成长型股、题材股等。利用数据挖掘技术,对这些不同股票的市场表现建立模型,寻找出这些不同种类上市公司的特征,这样的分类模型可以让投资者了解不同行为类别上市公司的分布特征,从而进行相应的投资操作。
下面对分类流程进行简要描述:
分类技术主要分为两个过程:训练过程和分类过程。
训练:训练集→特征选取→训练→分类器。
分类:新样本→特征选取→分类→判决。
训练过程可以看做是一个学习的过程,利用一批历史数据进行训练,从而得出一个模式,保存在分类器中。分类过程可以看做是一个应用过程,用该分类器对新的数据进行分类判定,从而得出新知识,图11-1就说明了这种分类预测的流程。
图11-1 分类算法流程