随着量化投资在金融市场中的应用越来越广泛,很多量化投资策略和模型被研发出来并应用到实际的投资管理中,但是对于量化模型有效性的评估和检验方法却不为大多数人所熟知。研究人员通常使用夏普比率,信息比率、交易胜率和样本外测试收益率等指标来评估量化模型的收益情况。然而,这样的指标并不能完整地反映模型的真实表现情况。
许多量化投资模型在做历史回溯期间能够获得比较满意的收益,然而在随后的样本外测试及实际交易过程中,效果往往不尽如人意。究其原因通常在于在量化投资模型的测试过程中对其进行了过度的数据挖掘和优化。而对于大多数投资经理、交易员或投资者来说,往往对任何使用过参数优化的模型都避而远之,因为他们担心优化所产生的收益将不会在未来的实战交易中延续。有效的交易策略能够在某种程度上对市场的未来行为进行准确预测。数据挖掘领域的常见做法是交叉验证,也就是将数据划分为建模样本和验证样本。有效的交易策略应该能够在建模样本和验证样本上体现出较好的预测效力。
然而,通过对量化投资模型合理地运用统计检验的方法,不仅可以对不同的量化模型在同一框架下进行对比,也可以使投资经理、研究人员或投资者提前识别出策略是否存在人造收益或者过度优化的问题,为量化策略在实战中保持良好的收益提供保障。尽管通过统计检验的方法来评估模型的回溯绩效和实战交易绩效并不能保证其优秀的历史业绩能够持续,但是投资经理、研究人员和投资者却可以通过统计检验的结果来判断量化模型的收益是否真实地捕捉到市场无效的部分,抑或只是在研究过程中人为地制造了漂亮的收益曲线。如果是后者,在未来的交易中,策略的优良表现则较难延续。
为了衡量量化策略在历史回溯阶段的收益在未来能够延续的可能性,需要对策略的历史收益情况进行统计检验,虽然这里的统计检验会出现检验假设的不满足、检验的结果并不一定能够保证策略在未来的实战交易中获得优异的投资业绩,但仍能够帮助投资经理增加对量化模型了解的信息,有效提升对量化投资模型的运用。平时常用的量化投资策略统计检验方法为:t检验。相关性检验,数据窥探偏差检验。
(一)t检验
t检验,亦称studentt检验(Student'sttest),是威廉·戈斯特于1908年提出的,t检验常用来检验单总体,t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。例如,在投资管理中,t检验能够反映一系列交易后的投资组合平均盈亏在某一置信水平下是否显著地大于某一阈值。同样,t检验也适用于对收益率的检验,即t检验可以反映某一组合的日度、周度、月度收益率的期望是否显著大于某一國值。最后,t检验同样可以对策略未来的表现给出一个置信区间,即“在95%的置信区间水平下,策略未来收益率的平均值将在某个区间内”。
(二)相关性检验
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。经过相关性分析可以求出两个变量的相关性程度及在统计意义上相关性的显著性。在金融市场中,相关性检验方法通常用于寻找对资产收益率有一定预测能力的市场因子,如在人工神经网络模型、多因子模型等量化投资方法建模。
相关性检验也可用于对量化投资策略历史回溯收益盈亏序列是否存在自相关性的检验,如某投资策略的收益率序列是否存在簇现象等,即正收益率和负收益率总是呈簇形的连续出现,若相关性检验结果表示确实存在这样的情况,即收益率序列自相关性显著性大于某一正阈值,那么交易者就可以考虑这样的交易方式,即在每笔交易盈利之后继续交易甚至增加头寸,到某一笔交易出现亏损后,停u止真实交易(模拟交易同时进行),直到模拟交易中再次出现正收益,重新建仓,如此反复,那么投资者的真实交易收益率将会优于原始策略收益。
(三)数据窥探偏差检验
对于使用高频数据的量化策略来说由于可供采集的历史数据时间较长,做交叉验证很容易。而对于频率较低的策略来说,可供采集的数据时间较短,往往需要基于同一套数据进行模型的开发与验证,这就涉及数据窺探(DataSnooping)问题。在对同一组数据测试大量的交易策略时,由于随机性,不可避免会有某些投资策略的收益表现较好。例如,如果设所有量化投资策略的分布服从正态分布,根据正态慨率分布函数,则将有5%的策略的绩效高于平均绩效1.65个标准差,将有1%的策略的绩效高于平均绩效2.33个标准差。假设投资者认为绩效高于平均绩效2.33个标准差的策略就是有预测力的策略(优异策略),则每测试100个投资策略,仅仅由于随机性就会有1个策略被当做优异策略而选出来。之所以会出现这种情况,是因为在对策略进行测试共用一套数据时,除第一条策略之外的策略“窥探"了数据造成的。有两个著名的统计检验可以用来控制数据窥探偏差:真实性检验和优异预测能力检验。两个检验的核心思想是,如果一个交易策略集合中的最优规则是真正有预测能力的,其回报一定要比随机情况下该策略集合可能出现的最大回报来得大。鉴于控制数据窺探偏差的重要性,西蒙斯的团队有可能采用了上述检验及其替代形式。