市值因子一直是业界和学术界都比较认同的一个选股因子,法玛标志性的三因子模型当中,市值因子就是其中之一。法玛在他的实证研究中发现,就美国市场上的股票而言,随着股票市值的上升,其未来收益率存在一个显著的逐渐下降趋势。简单来说,就是市值越小的股票,未来收益情况往往越好。当然,对于中国的股票市场,市值因子的定义可能更为复杂些,
因为国内的股票更多地涉及流通与非流通的问题,市值应该采用流通市值、总市值还是其他形式进行计算是一个存在选择性的问题,好在实际的策略研究发现市值因子定义上的细微变化并不显著影响到其盈利能力的存在与否。而且实际上,市值因子对于目前的中国股票市场面言,可以说是接近公认的最为有效的选股因子。虽然就在本书所涉及的样本期的末尾,市值因子在一段时间内完全失效,但是从后续的市场运行情况来看,市值依然是中国股票市场上一个不能破忽略的重要因子。
为了研究这个选股因子,作者获取了自1991年1月开始到2015年6月底结束的国内股票月度数据。所选股票的范围通盖在深圳证券交易所进行交易的所有A股,包括主板、中小企业板和创业板三个板块,以及在上海证券交易所进行交易的所有A股。月度数据则包括月末收盘时股票的复权后月度收益率,以及股票的月度流通市值。开始挑选股票进行买卖的时间从2010年12月的收盘开始,也就是说在回溯测试样本中将- 共交易四年半的时间,和上一章中的简单择时策略的交易时间保持一致。1991年1月到2010年12月的所有月度流通市值数据则作为开始买类股票前的备用数据,不过对于单因子的简单判断来说,只需要用到2010年12月这一个月的数据。研究内容上将同时兼顾因子有效性测试和单因子选股策略两个方面,先将股票按照因子从小到大排序分成若千个等份,从而研究因子大小和未来收益的相关关系,然后选取排列中的第一等份建立仓位,进而研究市值因子选股策略的盈利情况。
鉴于股票在整个生命周期内的不稳定性,也就是可能出现的停牌、涨跌停、无法交易等现实情况,在进人策略研究阶段之前,需要对相应的数据进行处理,尽量贴近真实环境下的交易情况。对某一些在研究过程中无法完全处理的差异,也应该做到心中有数,如有可能尽量在结果中进行估计和描述。而在整个回溯过程中,模拟交易也设定为只进行买入和卖出操作,不进行卖空的操作。这样设定的原因在于中国的股票市场本身处在一个高速发展的阶段,相关的交易手段并不完善而且变化较快,直到本书写作的时间也只有少部分股票可供做空,因此回溯测试中完全体现出现实的交易环境相对而言比较麻烦,做出不卖室的交易限制则可以有效地简化整个量化选股策略,方便读者更好地掌握相关内容。同时在本章的基本选股策略框架下,全部资金都用来持有股票。
回朔测试的过程其实比较简单,在第一个选股和交易的时间点,即2010年12月收盘时,将样本中所有数据完备且可以交易的股票当前的流通市值从低到高进行排序,然后按顺序等分为若千个部分,每一等份中的股票又按照等权重进行组合。也就是说,把每一个等份看作一个股票组合, 则该组合中按照收盘价买人的每一只股票的资金量都相同。然后在2011年1月收盘时进行相同的排序和等分过程,形成新的股票组合分组。之后每一个月收盘时都进行相同的操作,直到交易样本结束即2015年6月底为止。
在54个月份之间,排序第-的等份就对应着一个长度为54的收益率序列,假设在2010年12月收盘的时候资金量为1,那么对于“在下个月持有当月排序第一的等份中对应的股票”这样一个策略, 就可以通过该收益率序列计算出一个净值走势,这也就是单因子选股策略的净值走势。需要说明的是,除了交易成本在这一章的简单研究过程中暂时不考虑以外,这里的策略回溯过程还将引入另一个与实际交易环境不符的刻画:如果在一个收盘交易点判定了新的选人股票之后,原来某个正在持仓的股票不在新的选入股票之列,但是此时由于该股票因为停牌等情况无法卖出,那么在回溯环境下假设该股票同样退出持仓,且该月的收益率为零。这样的假设虽然脱高现实,但是会使得回溯过程更加清晰,在实际交易中这种情况会涉及仓位的分配调整,是一个需要研究人员自行做出处置的疑难问题。
对于排序不同的等份而言,均可以像处理排序第一的等份一样,将其看作一个逐月变化的股票组合并计算出净值变化的情况,再折算成月度的收益率,代表的就是这一排序的平均月度收益,如下式所示:
式中,rnus 是排序第n的等份组合在第1个月的收益率;可就是排序第n的等份在样本区间内的平均月度收益率。
如果因子大小和未来收益有显著的关系,那么后应该随着n的变化具有显著的趋势。当然,这种趋势也会随着n的具体取值而变化,如果n太小,不同等份间变动的表现能力会因为太多的股票参与平均而减弱,如果n太大,趋势又可能会受到股票收益中噪声的影响而不明晰。
市在本书中,作者将所有股票按照因子大小排序划分为3等份、10 等份、30等份共三种情况来加以研究。