第1章1.2节论述了量化交易策略的一些缺陷,包括易复制、易暴露、无法兼容非量化信息、转向缓慢等。可以看到,这些缺点都是量化交易策略所固有的,当我们选择使用量化交易这一策略门类时,
实际上已经默认地接受了这些缺陷及其所带来的危害。
与此同时,量化交易策略还存在着一个本质上的缺陷,那就是过度拟合所造成的策略回溯测试结果偏离实际的问题。不同的是,其与量化交易策略的整个研发流程息息相关,因此作者选择整体介绍完量化交易策略研发之后再对此进行闸述。当然,将这部分内容放置在最后一章, 也是出于着重强调该问题的目的。
在第3章3.2节中,作者曾介绍过量化交易策略研发中过度拟合和欠拟合的来源情况。如图16-2所示,两个圆分别代表数据内部特征和交易策略,两者重合的浅灰色区域是策略挖掘出数据特征进而获利的区域,深灰色区域代表欠拟合的部分,白色区域则是策略无效,即过度拟合的部分。
实际上,欠拟合的深灰色部分并不会对策略的可行性造成实质影响,因为我们研发量化交易策略的目的并不是全知全能,而只是依靠浅灰色的生效部分获得盈利。但策略部分超出数据特征的白色区域则不同,由于研发过程中优化方法的引入,过度拟合往往会不切实际地提升回溯测试的盈利结果,从而造成研究人员的误判。我们在案例中使用到的参数的网格搜索、回归式的拟合等,都是最优化的手段,
具体来说,在研发量化交易策略时,我们可能会优化收益、优化风险,也可能会针对风险调整后收益进行优化。当存在过度拟合的问题时,我们就会相应地得到过高的收益和过低的风险。不管是哪种情况,最后供我们参考的结果都会比实际应用策略时要好,而这种“好”是虚假的。
我们在第3章中曾经提到,推进分析是一种处理过度拟合问题时行之有效的分析技巧,通过推进分析等处理,似乎是将这些优化手段所造成的过度拟合问题规避了。但是遗憾的是,不论是推进分析还是多层推进分析,都只能模拟实际交易过程,并提供模拟环境下的样本外检验,而无法真正地解决过度拟合的问题。根源在于,无论我们如何划分样本数据,并做出各种各样的检验,在研究过程中所有的样本数据对我们来说都是可见的。真正不可见的数据只可能是未来的数据,如图16-3所示。因此,真正意义上的样本外检验,也只可能是研发确定交易策略之后的实际操作或实际检验。
除此之外,推进分析只能针对形式明确的最优化方法来规避过度拟合问题。对于那些不能使用数量化手段进行表述的优化方法,推进分析之类的处理手段非常难以实施,仅存在理论上的可行性。
例如,在给出市值因子和反转因子时,我们已经试验过了很多没有显著作用的因子。择时方面,我们也尝试了很多种不同的时间序列模型,才最终选定了均线和自回归两种策略进行介绍。很明显,这些没有展示出来但是确实存在的研究行为,实际上可以归为隐性的最优化处理,也是完全有可能造成过度拟合问题的。
甚至可以说,不论我们使用多么精妙的技术手段来进行处理,只要有“研究”本身的存在,我们就不可能在量化交易策略研发的过程中完全规避优化行为,也就会因此受到过度拟合的困扰。
此外,国内的资本市场运行时间尚短,存在着数据量过少、市场结构变化过快等问题。当我们使用这些数据作为整体样本进行研究时,就会进一步地加深最优化所带米的过度拟合问题。
这样看来,通过一般研发流程得到的量化交易策略,其回溯测试结果都可能会被或多或少的高估。如果一个实际上并不具备显著盈利能力的策略,通过“研发”流程而被选中并进入实际运行,其结果就是资金的浪费,同时承担了无谓的风险。鉴于我们可以将这部分资金用于其他可盈利的策略或项目上,可以认为我们损失了所谓的机会成本。
而一个策略如果被低估了风险,按照本书所介绍的基本研发流程来看,风险直接驱动仓位决策,结果往往就是在实际运行中使用的仓位过重。在第10章10.1节论述凯利公式时曾有涉及,如果仓位较之真实的最优仓位更重,会导致收益下降甚至产生损失。更重要的是,对风险的低估会导致策略使用者在策略运行时无法准确把握净值的实际波动,甚至在不恰当的时机提前终止策略。
主观逻辑与经济直觉
要在技术上应对这一问题,其实并没有非常有效的方法。研究人员在熟悉量化交易策略的研发流程之后,对过度拟合的程度进行入为判断,自然是可行的办法之一。但是这样的判断缺少系统性和准确性,有效程度值得怀疑。
作者较为推荐的做法是,使用主观逻辑的支持来弥补对于回溯测试结果的信心缺失。更为学术一点的说法是,让量化交易策略符合“经济直觉"。当策略本身可以体现出经济上的逻辑或者事物内在的逻辑时,使用者就更有理由相信,策略在回溯测试下之所以盈利是因为挖掘出了历史数据中的本质特征,而非纯粹的过度拟合。
例如人们会根据自己的理解,在逻辑上对金融资产的趋势特性进行解释。大部分的解释归因于市场参与者方面,认为是人性的贪梦和恐惧造成的资产价格上的趋势,或者趋势来自市场参与者对于信息的反馈速度不一致,等等。
市值因子的经济逻辑相对而言更为清晰,在经济水平上升的现实情况下,市值较小的公司往往更有发展潜力,从整体上也就体现出更强的盈利能力。当然,也有一些人从市值小的股票更容易操控的角度来理解这个问题。
反转因子的逻辑在解释上与趋势特征是同源的,市场参与者的个体特征经过市场的融合,最终形成了资产价格走势的反转特性。只不过对比趋势而言,反转的作用时间往往较短,并造成了相反的结果。
当然,上述经济逻辑,有可能只是研发人员通过纯粹数最化的研究得到了趋势、市值、反转这些有效策略之后,再根据策略形式构造出的内部逻辑,在顺序上逻辑是处于量化研究之后的。更令人信服的,应该是先基于经济逻辑构造出相应的量化交易策略,然后回溯测试发现其确实有效,这或许是对研究人员来说最为理想的一种情况。
另一方面,这里所说的主观逻辑或者经济直觉,与完全人为判断的主观交易又有不同。人的逻辑思维有些是可以通过数量模型来描述的,我们要利用的也正是这.部分的逻辑思维。此时的逻辑只是用来辅助和支持数量模型的,量化模型和量化决策过程仍然是我们处理的主体,这与本书最开始给出的量化交易策略的定义没有冲突。
而随着技术的不断发展,也许在未来的某一个时刻,量化交易策略将可以在数据挖掘的基础上,自主地形成另一种形式上的“意义”,进而将逻辑思维和量化分析合二为一。我们已经看到了数据科学、人工智能等领域中让人赞叹的成果,也理应在技术进步的面前保持谦卑,持续学习。
最后需要说明的是,本书的重点在于介绍套用 于研发量化交易策略的流程和技术,案例中的若干策略其实都非常简单。面在实际的策略研发中,往往会运用到一些更为复杂的模型和策略。研究人员有必要理解这些模型,知道其意义何在,才有可能正确地使用它们,乃至跳出基本模型的限制,尝试构造更为适合自已的策略。量化交易策略本身的数理逻辑是应用这些策略的前提和基础,这需要我们在实际的工作中进行掌握。