既然是基于数量化的分析手段,数据就自然而然的成为了最重要的输入。这里笔者想着重谈两个方面。
首先,《解读量化投资》一书中介绍说,西蒙斯使用“每笔交易数据库”(记录每一笔交易的价格变化,而不是每分钟的价格变化)。信息量损失越少,应该越有利于模型的开发。可对于股民来说,现实问题是这个数据库在国内还真是不好获取。至少,从大众普遍的意识中,上交所逐笔数据的获取应该是从2006年8月开始。此时,上交所Level-2行情数据的公布才有可能具备逐笔交易的信息,之前所显示的都是撮合数据。而深交所的Level-2行情数据也基本上能追溯到2009年。理论上讲,既然公布出来这样的数据,就可以获取。从数据量上来说,时间段有限可能对于算法的校验、训练会产生障碍。
其次,“T+1”的交易制度让快进快出型的股票日内交易受到一定的阻碍。虽然有一种非满仓滚动的操作方式可以在一定程度上弥补这一不足,但毕竟还要受到操作次数和基数的限制。
在股票操作这个问题上,一种处理思路是更改以日内交易为月的的算法设计,用基于日线级别的数据来予以替代。尽管这往往意味着需要将算法的设计理念调整为类似于基金式的长期持有,但也仍不是必然选择。不过,还是有必要来重新思考一下为什么我们强调将算法交易仅仅只是瞄准在与基金业绩比较的层面就已经存在意义。
基金作为专家理财,实际上是有一定优势的。承认基金经理可能在金融教育和市场经验上有超过普通投资者的现实很重要。很多问题应该换位思考才能得到较为合理的答案。很多投资人是自己做不好才把资产交给基金进行打理的。基金赚钱的时候觉得理所应当,赔钱的时候就有种“还不如我”的心态,这十分不可取。如果我们有方法可以打败基金,这实际上已经实属不易。只要方法有效、稳定且可以扩展,读者其实就已经掌握了价值不菲的技术。实际上,笔者在考虑算法设计的时候,也主要是以尝试打败指数或者打败基金为目的来建立算法应用的。至少,依照笔者所接受的金融教育和国内基金普遍比指数走的好的现实,这个并不“高远”的目的可以让我自已感到知足了。
正如笔者所指出的一样,投资这种事没什么绝对。据笔者了解,在期货市场有一种炒单现象。做得好的炒手甚至可以每天有稳定的盈利。这或许就是普通投资者操作的另一个出路。调整好两者比例,或许才是至关重要的。其实,对于很多投资者来说,股票市场的门槛还是相对较低的。而且,国内期货市场算法交易发展的进程要远高于股票市场,投资人往往也格外的老练。所以,在没有较好的准备之前,投资人还是不要轻易涉猎比较稳妥。
这里其实也涉及到了上一节的一个遗留问题。“不从模型开始,而是从数据开始”到底是什么意思?笔者认为可能存在两个方面的含义:1.避免以定价模式来尝试推测变量的目标值;2.其极有可能是从数据挖掘的角度来尝试搜寻算法,并依托统计套利的模式进行策略执行。
这第一个方面容易理解,实际上笔者从本书的一开始就表达了对内在价值在应用层面的不认可。认为“金融工具存在内在价值且价格要向价值回归”这种观点更接近一种信仰。而信仰往往是不需要(也没办法)证明的。在金融市场里有信仰可不见得是个好事。长期资本的例子已经比较好的说明了这一点。
第二个方面可能略有些问题需要解释。套利已经在前文中有所涉及,但统计套利暂时还没有。
金融投资领域的统计套利实际上存在于两个不同的方面。在学术领域统计套利是以针对确定性套利的形式存在的。也就是说,统计套利是通过对资产价格的统计研究尝试寻找已有模式下的错误定价。而在对冲基金中,统计套利泛指短期均值回复策略。而这种策略是建立在大规模操作,短期持有,坚实的计算与交易的信息技术构架之上。
安德鲁·波尔在《统计套利》一书中指出:“统计套利的方法范围,从最古老的纯粹的匹配交易机制到复杂的、动态的非线性模型,应用的技术包括神经网络、小波分析、分形分析一几乎涵盖了统计学、物理学和数学上的所有的模式匹配技术,这些技术被测试、检验,并在大多数情况下遭到摒弃……后期融合了多种因素,包括交易经验、更多的实证观察值、实验分析,并且从工程学和物理学的视角,给予了理论上的解释。”
作为一个行业词汇,想要精确的定义是有困难的。但不难看出,统计套利普遍涉及到了模式的探索、校验和大基数的应用。至于研究方法则没什么限制,只要是能数量化的领域就可以借鉴使用。换句话说,这种研究方法是在假设过去的盈利模式仍然适用于现在,不适用的策略算法就要被舍弃。显然,算法池式的管理结构是我们第一个反应出来的应对方法,这也是笔者之前强调松散结构的原因。
到此为止,似乎一个有意思的问题出现了。一种完全不同于长期资本管理这种倒金字塔式的策略结构可以应用到量化交易中。那种强调衍生品式的模式可以被一种相对扁平的结构所取代,而分析师则更像是一个维持优胜劣汰比例的阀门控制人,以及为种群添加新个体的造物主。