第5章5.4节介绍了多因子选股策略的基本运行模式,并提供了一个简单的回溯测试案例。在这一节中,作者采用大体上相同的设置进行了多因子选股策略的推进分析,用来模拟实际交易中策略的运转流程,从而得到个贴合实际环境的策略盈利能力结果,同时考察策略的过度拟合程度。多因子选股策略的具体定义和第4章4.4节中保持一致,仍然是使用估计完成的回归式计算得到所有股票收益率的预测值,然后将股票按照收益率预测值从高到低进行排序,再按顺序等分为若干个部分,每一等份中的股票又按照等权重进行组合,也就是买入各只股票占用的资金量相等的组合。交易中,选取排序中的第一个等份进行持仓操作。具体请参见第5章5.4节前半部分的相关叙述。
数据方面也和前面所获取的数据致, 同样是自1991年1月开始直到2015年6月底结束的国内股票月度数据。所选股票的范围涵盖在深圳证券交易所进行交易的所有A股,包括主板、中小企业板和创业板三个板块,以及在上海证券交易所进行交易的所有A股。月度数据则包括月末收盘时股票的复权后月度收益率,以及股票的月度流通市值。在进行具体的推进分析之前,为了更好地反映出月度收益率和流通市值之间的线性关系,需要对流通市值进行对数化处理。图8-1展示了多因子选股策略的推进分析在这段时间的样本下是如何进行的。1991年1月到2005年12月的月度数据作为多因子回归模型估计的备用数据,但是实际需要使用的也只有2005年12月这一个月的数据。这一部分在图中没有具体显示,特此说明。
在推进分析的第一行操作中,白色框为优化期,从2006年1月到2010年12月一共60个月。根据这60个月的月度数据,结合2005年12月的备用数据, ;就可以得到60组用来回归的数据,从而进行多因子回归模型的估计,具体的估计过程可以参考第5章5.4节中的说明,这里不再赘述。使用白色框的数据完成回归式的估计之后,则将回归式用到灰色框的样本数据上进行交易的模拟。具体来说,就是在2010年12月收盘的选股时间点上,基于2010年12月所有股票的月度流通市值和月度收益率数据,使用白色框中得到的回归式计算得到所有股票在2011年1月的收益率的预测值;然后将股票按照收益率预测值从高到低进行排序,再按顺序等分为若千个部分,每一等份中的股票均按照等权重进行组合,也就是买入占用的资金量相等的组合。在进行完-行的操作之后,将白色框和灰色框都分别向后推进一个月,重复相同的排序和等分过程,直到最后一行为止。
在得到了所有灰色框中的排序结果之后,需要进行的处理实际上与简单优化下的多因子选股完全一致。首先根据每一个等份下长度为54的收益率序列,计算出各个等份的平均月度收益情况,进而判断多因子模型预测下一期收益率的整体趋势性。交易策略方面,则根据排序中的第一个等份选择股票,这个序列的股票组合即是每一个月多因子选股策略所选择的股票组合,而该等份的收益率序列也就是策略在每个月下的交易收益。根据这一长度为54的收益率序列,可以计算出多因子选股策略在灰色框模拟交易下的净值走势。
灰色框下的研究设置沿用前面简单优化时所采用的设置,即将所有股票按照收益预期大小排序划分为3等份、10 等份、30 等份共3种情况来加以研究。