好买说
沪深两市挂牌公司已有3157家,现在还有若干企业在IPO排队中。
以后,股票只会越来越多……
再加上去年量化业绩干得还不错,现在市场延续震荡行情,都说今年也挺适合:
他们说的保守估计的收益率听起来一点都没有“保守”的成色。
听着让人心痒痒,但是好怕被忽悠了。
想来想去不如一探究竟。
先从几个常见的情形说起:
(1)某公司年会抽奖,大屏幕显示幸运号码:尾号是6的是三等奖,后两位是66的是二等奖,后三位是666的是一等奖...不妨把这叫“量化抽奖”;
(2)某城市交通拥堵,雾霾严重,周末两天分别单、双号限行,不妨叫做“量化限行”;
(3)某班级有49人,按从矮到高排成一队并从1-7报数,数字一样的站成1队,最终形成方阵,不妨叫做“量化排队”。
……
那按一定的筛选标准从一大堆股票中间挑选出符合条件的股票的方法,都可称作“量化选股”咯? 我就喜欢股票代码中有7、股票名称总共3个字且笔画数大于24的.....
可是量化选股的目的不是为了喜欢,上面这种做法显然只是在玩游戏,跟收益挂不上。我们是为了找到未来可能表现好的股票,获取超额收益。
选出那些害羞的,他们身怀绝技
2017上海半程马拉松赛3月16日开始预报名,如果我们想知道哪些选手最终可能会取得比较好的名次,理论上我们可以在开跑前对他们做一个身体测试,比如测一下他们的肺活量、最大摄氧量等指标。并对测试的结果进行排名,排名靠前的选手获得好名次的可能性就比较大。
因子选股模型的原理与此类似,可以利用某些指标也就是因子选择未来可能表现较好的股票。
如此一来,就找到了问题的关键点,选择什么样的因子才能选出这样的股票呢?
我们知道影响股价的因子非常多,宏观经济状况、行业前景、公司经营状况、甚至天气、季节都不是没有可能。而判断这些因子是什么状况,又有一系列可以量化的因子指标,比如:GDP增速、CPI、PPI、行业景气指数、行业集中度、净利润率、主营业务收入增长率、降雨量、日照指数、温度变化……
失业不仅影响心情,也影响了股价
看起来有种没完没了的节奏,这么多,指望着10个手指头一一算过来,黄花菜都凉了。
可别忘了我们有计算机。
计算机运算快是众所周知的,
可是得知计算机每秒运算几十亿次到上千万亿次,
仍然感觉很震惊
理论上讲,什么因子我们都可以拿来验证一下是否有效。
很多公司的计算机配置很是超前,算这些都是小意思,只有你想不出,没有算不出。
不过理论之外,很多因子还是没法计算,再先进的配置也是枉然,因为没有数据或者数据拿不到。
而且,如果一个包罗万象的因子库,很有可能导致过度拟合的情况,导致最终选不出好的股票了。
结合我们自己的经验和市场规律以及数据的可得性,我们会得到一个候选因子库。
选取候选因子的标准应该遵循哪些规则呢?
这主要是由投资者经验和市场规律来决定的,较多的候选因子将为构建投资组合的全面性做出更强的保证,更有效的候选因子才能保证投资组合的收益率。
如果没有经验,可以先看看别人都选了啥:
估值因子:
成长因子:
净资产收益率及变动、总资产收益率及变动、主营收入增长率、毛利率及变动、净利率及变动
价量因子:
1、3、6个月收益率、1、3、6个月换手率及变动
预期因子:
机构覆盖数量、评级调整……
有的机构因子库中有数百个候选因子。
这么多因子,只是有经验的人列出来的清单,在一定的时间段内对选股来说未必都有效。
检验候选因子的选股有效性一般采用的检验方法是排序的方法。
简单来说,每一个因子都是一个指标,把股票按每个指标值从小到大的顺序都排一下,然后分别选取每个指标最高、最低极端的2组计算他们的区间收益率(一般为月度,分组目前一般采用5档)及收益率与因子的相关性。
比如:我们认为身高高的力量可能会大,
于是身高最高的组和身高最矮的组选出来
看一下身高高的力量是否真大,身高最矮的力量是否就真的小
为什么不必计算全部?因为如果最大最小的两组收益率都对因子有相关性,那么中间的组也就无需计算了。
所谓相关性是指:如果因子指标高,收益率也高,那么就是正相关;反之就是负相关。因为选取了两组极端的股票组合,假如跟因子是正相关,那么因子指标高的那组就是“高收益组”,反之亦然。
然后统计“高收益率组”各月收益率在各种市场状况(牛市、熊市)下跑赢业绩比较基准的概率,这是因为我们选股的目的是跑赢市场,获得正的阿尔法,如果“高收益率组”收益率超过基准业绩的概率小于50%,那么这个因子就是无效的,应予以剔除。
当然也可以要求更高更苛刻的概率标准,来确保找到更有效的因子。
反复这样操作,我们就找到了有效的因子。
但有可能这些因子之间有很强的相关性,我们可以据此剔除掉一些。什么叫很强的相关性?这个可以自己设置一个阈值,既可以是超过0.5的也可以是超过0.6,根据自己的经验来调整。
那么,接下来怎么通过有效因子选股呢?
还记得我们之前说过的排序了么?排序可以转化成一个分数。既然因子都已经确定了,那么相对于这些因子来说,每个股票都在某一个因子上有了一个分数。遇到最终是负相关的因子,股票的分数需要逆向转换一下。
最后将这些分数按因子加权加总(也可以等权),找出若干分数高的股票,选股就算完成了。若干设置为多少比较合适呢?这个我们可以放在以后讨论。
在实际操作过程中,各个环节的设置可能会有些出入,但是基本逻辑大致相当。
当然在最后确认是如何加权时,直接采用打分的方法设置的权重会有更多的主观色彩,还有一种方法是通过回归得到系数避免这个问题。在此我们不再展开。
模型建立不是一劳永逸的,曾经有效的模型也可能由于市场突然变化而失效。适时的调整是必须的。
我们再来回顾一下整个流程吧:
先是弄一堆候选因子
然后找到候选因子的具体数据
再把有效因子筛选出来
通过打分筛选出股票
适时调整
大功告成!
这就是经典的因子选股的线性模型,然而现在更流行的是非线性模型,就是我们多次说到的机器学习的方法来确定和调整因子,比如人工神经网络算法,实际过程比这个要复杂的多,离开大数据和计算机寸步难行。
风险提示:基金过往业绩并不预示基金的未来表现。