金融信息处理基础技术
一、关联与清洗
关联与清洗是进行数据处理最基本和常用的手段。在数据关联处理过程中,往往将各种数据与相应金融产品进行关联或者在金融产品之间进行关联。
(一)各种数据与相应金融产品之间的关联
在数据与产品进行关联方面,我们认为金融数据库就是金融知识在业务上的表现形式。因此投资和学术研究的思路同样也应该是我们设计数据库的思路,并在实际设计的认知过程中不断地贯彻和深化。在具体业务设计时,我们以应用为导向,以业务背后的理论和专业知识为视角,以投资和学术研究的思路为指导进行数据关联处理。结合中心库关系型数据库的特点,在设计的时候既要考虑同一主题下不同表之间的内在联系,也要关注同一个数据库之下不同主题之间的关系。因此在建一个表的时候,就整体考虑把表的建设纳入主题的构建中,对加强数据库结构的稳定性以及关联性具有重要影响。基于以上思想,数据库建设基本理念以系统表为基础,建立数据库各主题及各表之间的关联关系;在主题的设计时,以业务基础表为基础,关联辐射出各主题的业务明细表。
金融市场本身是一个信息市场,每一个信息所反映的都是具体的事件,而每个事件所反映的又都是一些“主体”信息。这些主体包含国家、区域组织、政府部门、上市公司、银行、上市公司高管、实际控制人(含自然人)、股票(证券性质)、基金(证券性质)等。数据库系统表是整个数据库架构的骨架部分,基于它们将建立各主题及各金融产品之间的关联。基于对金融市场组成部分的理解,系统表包含了三个部分:机构、证券、人员。
机构包含法人类主体(行政单位、事业单位、社会团体、企业单位),合约类主体(各种社保基金组合、基金组合、信托资金组合),会计类主体[部分企业的分支机构(重要性)、合伙单位](某“组织”信息只要满足以上三类中任意一类,均可收录到机构基本信息,具体是否收录,则根据业务以及重要性来判断)。证券包括股票、基金、债券、商品期货、金融期货、期权、指数以及其他衍生品。人员包含政府人员、财经知名人士、上市公司高管、基金经理、实际控制人、证券从业人员、其他重要中介人员。
机构的信息在机构基本信息表中进行记录,建立机构信息表主要基于以下三个目的:
(1)机构信息标准化和规范化。建立机构基本信息表的一个非常重要原因,就是为了保证机构信息的标准化和规范化。由于机构信息可能会在不同的年度重复出现(纵比),也会在不同的主题信息下出现(横比),如果我们储存的仅仅是机构的名称,则可能会因为名字的稍微差异,使人产生误解并降低了数据的质量。
(2)检索加工准确和便利。建立机构基本信息表,并对不同的机构进行标识:“代码化,,和“唯一化”,为我们数据的加工和检索带来了极大的便利和可行性,也会提高检索的效率。
(3)统一维度。机构基本信息表的定位是全库的公共表,说明该维度是全库统一的,这就使各个主题信息的交错关联成为可能。
证券类的相关信息在证券基本信息表中汇总,建立证券基本信息表并赋予每个证券唯一的ID,主要是基于以下三个原因:
(1)证券唯一标识。证券代码(Symbol)作为证券的唯一标识,是受证券市场和时点以及种类的限制。从纵向来讲,证券代码存在重复利用的可能或事实;从横向来讲,不同市场间同一个证券代码代表着不同的含义。因此,证券代码作为关键标识,是存在很大限制的。
(2)简化业务表结构。由于证券基本信息表的存在,会让涉及证券代码的业务表的结构得到很大的简化。如研究报告关联证券信息表,只需一个字段证券ID就可以了;否则,则需要证券代码、证券类别、证券市场等至少三个字段来表示,而且证券代码可能还存在问题。
(3)有利于数据的存储更新。若是以上两个原因,可以通过视图来实现,但是建立了物理表,则有利于数据的更新和保存。
我们将市场参与者的个人信息统一收录到人员列表中。建立人员列表的目的如下:
(1)人员唯一化。人员ID类似居民身份证号,只要是同一个人,不管其他信息如何发生变化,即使姓名发生变更,也不用新增ID。同一个人,不管在何种场景,如果一个人在A公司是董事,在B公司任独立董事,在交易所兼任发审委员,同时又是某只基金的经理,通过这四个机构检索出来的这个人,ID都是一样的。
(2)维护标准化。不管是上市公司的高管还是基金经理,都是到同一张表格去维护个人信息,既减少了维护压力,又统一了数据标准,避免了同一时间、不同业务场景调用的同一个人的信息出现不一致的情况。
(3)精简业务表机构。业务表可以只存储人员ID,其他信息可以去人员列表关联提取。除上述三个系统表之外,为了将公用信息标准化、数字化,我们对各主题公用的一些可编码的内容进行了编码,建立公共参数表记录与维护。公共参数表的建立基于以下目的:
(1)提高数据规范。把可枚举的参数进行标准化、编码化,相对直接存储文本信息而言,提高了数据的质量,从源头上保障了数据的一致性和规范性。
(2)统一数据维度。公共参数表,既然定义为公共,则说明这部分参数是适用于整个中心库系统的。这种适用于整库的参数设计思路,保证了各主题数据的可比性、一致性,也为后续的数据加工提供了条件。
(3)便于维护。把参数表提到公共表的地位,并集中到几个表进行维护,便于数据的管理和质量控制。
(4)简化业务表关系。由于把参数集中到有限的几个表,业务表需要调用的参数,就只需关联这几张表,简化了数据表之间的关系,降低了数据应用的难度。
(5)数据加工提供便利。参数的编码化维度化,为数据的加工提取提供了极大的便利性和精准性。
(6)维持中心库的结构稳定性。对于一些可编码的信息,中心库结合编码设计成纵表的形式,当出现业务的扩展和提升,只需要在公共参数表中维护编码,而不需要改变中心库的结构,有利于中心库的稳定性。
(二)金融产品间的关联
除了将数据与金融产品进行关联外,数据库建设过程中还应将金融产品之间进行关联'数据库应该建设为关系型数据库。由系统表、业务基础表和业务明细表几部分组成,
li第二章金融信息处理技术I053其中,从市场参与者的角度,以机构或证券为基础又分为各主题信息,主题中在业务基础表中存储ID信息和基本情况,其余由业务基础表辐射衍生出的业务明细表分别以ID关联到业务基础表,可以取得相应的基本信息。
以证券维度的数据为例,每个证券品种分别以主题的形式管理,各主题都有证券的基本信息表,在该表中记录基本情况并生成各品种的证券ID,生产的证券ID又汇总到系统表的证券基本信息表,便于跨品种的管理和关联,同时各主题内各业务明细表也是通过ID信息与相应的基本信息表进行关联。如此,ID信息作为各业务及各品种的线索,将整个数据库整体关联管理起来,实现真正的稳定性和关联性。
不同的证券品种之间如需要相互提取信息,也可以通过ID进行关联和衍生,如指数与其成份股、基金与其投资明细等,均是在业务表中存储相关的证券ID信息,再通过证券ID关联提取需要的信息。
(三)兼并、收购、更名、借壳的关联
在真实的业务中,这几项的意义各不相同,但是存在一定的关联。
兼并通常是指一家企业以现金、证券或其他形式购买取得其他企业的产权、使其他企业丧失法人资格或改变法人实体,并取得对这些企业决策控制权的经济行为。兼并是合并的形式之一,等同于我国《公司法》中的吸收合并,指一个公司吸收其他公司而存续,被吸收公司解散。
收购是指一个公司通过产权交易取得其他公司一定程度的控制权,以实现一定经济目标的经济行为。收购是企业资本经营的一种形式,既有经济意义又有法律意义。收购的经济意义是指一家企业的经营控制权易手,原来的投资者丧失了对该企业的经营控制权,实质是取得控制权。从法律意义上讲,中国《证券法》规定,收购是指持有一家上市公司发行在外的股份的30%时发出要约收购该公司股票的行为,其实质是购买被收购企业的股权。
数据库建设过程中设置并购重组主题反映这类事件。该主题详细介绍了上市公司作为参与方和对方进行交易的整体事件信息,收录的具体业务包括资产收购、资产剥离、资产置换、吸收合并、要约收购、债务重组、股份回购。并购重组并非准确的法律概念,只是市场上的通常说法,上市公司并购重组主要包括控制权转让(收购)、资产重组(购买、出售或置换等)、股份回购、合并、分立等对上市公司的股权控制结构、资产和负债结构、主营业务及利润构成产生较大影响的活动。并购与重组可大致区分,并购主要涉及公司股权结构的调整,其目标大多指向公司控制权变动,核心内容是“股东准入”;重组则主要涉及公司资产、债务及业务的调整,其目标是优化公司的资产规模和质量、产业或行业属性,核心内容是“资产业务准入”。但是,自出现以股权类证券作为交易支付手段后,两类“准入”可通过一项交易同时完成,因此二者之间的界限逐渐模糊。
借壳是指一间私人公司通过把资产注入一家市值较低的已上市公司,得到该公司一定程度的控股权,利用其上市公司地位,使母公司的资产得以上市。中心库通过记录事件发生的整体过程和事件发生双方前后的信息变化来反映整个借壳事件。借壳事件并没有规定的流程及规范,而是一个通俗的说法,并且在实际操作中,会根据双方的情况,调整整体流程,以期最终达到上市的目的。但是无论如何调整操作过程,实质都伴随着资产的注入行为,典型操作如吸收合并、资产置换等,伴随着这些操作过程,也会产生一些比较明显的行为或影响,如取得控制权、成为控股股东、更名、股权转让、资产剥离、资产收购等。总的来说,借壳的过程基本都无法离开常规的并购重组,但是借壳只是一种常用的、
形象的说法,而到现在为止,并没有作为一种有固定流程、权威判定标准的企业行为有明确定义,因此在判断上,我们是以其实际产生的结果进行判定是否发生借壳行为,通常会参考是否为重大资产重组进行判断。
如上所述,并购重组和借壳的信息常常会存在交集,同时也可能伴随着更名,如借壳事件发生时,通常壳公司会被更名。但是更名作为公司变更的一种,也可能并不伴随并购重组或借壳发生。因此,这四种业务均反映公司行为,互有交叉也各不相同。但因其都是公司层面的行为.因此每类事件发生时,都会记录事件双方的机构ID,以便关联查询。
(四)分红、送股、配股和合股
对于股票、基金的复权行情信息,数据库会根据分红、送股、配股、合股等信息进行调整。由于交易所公布的收盘价,受到除权除息事件的影响,长期来看不具备可比性。为解决此问题,数据库对每个交易日的收盘价进行调整,并按是否考虑“现金红利再投资”分两种情况提供可比价格。在可比价格的复权方法上,分别给出前复权价格和后复权价格。
复权价格即调整后的收盘价。所谓调整,就是要选择一个参考时间点,并以此参考点为基准,向前或向后调整。调整因素的选择依据为分配前后股本的变化量;计算的依据为分配前后公司的可比市值,因为公司的市值由等额的股份构成,釆用可比市值来计算能充分地反映分配前后股权的稀释情况和现金的流入流出。
复权方式可以选择自动复权和精确复权。自动复权的前复权和后复权价格计算公式如下:
前复权:复权后价格=(复权前价格-现金红利)V(1+流通股份变动比例)
后复权:复权后价格=复权前价格x(l+流通股份变动比例)+现金红利
根据上市公司的权益分派、公积金转增股本、配股等情况和交易所的除权报价方案精确计算复权价格。精确复权的计算公式如下。总体原则是股票总价值不变。
前复权:复权后价格=[(复权前价格-现金红利)+配(新)股价格X流通股份变动比例]v(1+流通股份变动比例)
后复权:复权后价格=复权前价格X(1+流通股份变动比例)-配(新)股价格X流通股份变动比例+现金红利
(1)除权除息的过程。公布分配方案,确定股权登记日,在股权登记日收盘后仍然持有股票的股东,享受本次分配的权利。分配方案是在收盘后进行的,以“股东的财富不变”为原则。股东的财富由股票市值+现金红利组成,市值的计算以股权登记日收盘价作参考。分配完成后,股东的持股会增加,或者是收获现金红利。注意分配并不能增加财富,只是财富的转移,股东的股票增多了,或者是收获了现金红利,同时持有的股票价格也不再是收盘时的价格,需要作一个变换,即将收盘价变换为除权参考价。除权参考价即作为次日(除权除息日)开盘价的参考和计算涨跌幅的基准。
(2)收盘价调整过程。从除权除息的过程可以看出,除权(息)参考价是分配方案实施后,公司总价值(市值)的平均,也就是说除权参考价包含了分配方案的每股股权稀释和所有现金流入和现金流出。第一次除权日的收盘价和该日之后的收盘价,都是在第一次除权参考价的基础上综合各种市场信息及事件(包括新的分配方案)形成的价格。
下面举例说明分红送股的具体情况,假设昨天分红0.5元,如图2-4、图2-5所示。
图2-4前复权和后复权——分红 图2-5前复权和后复权——送股
(五)缺失数据清洗
1.防范措施:多个数据源
首先,从源头上应该避免对数据源的过度依赖,因此,在新建一张表的时候,需要确定有多个(两个或以上)可替代数据源,以确保当主数据源出问题的时候,不影响日常的数据更新,或至少在有解决方案前,起到缓冲作用。
2.根据业务逻辑补充
一些具有强烈业务逻辑关系的数据,缺失时可以通过业务逻辑进行计算。例如,库中的盘前数据其中一个源头是从交易所接收,但是如果交易所漏发或者发送不及时的时候,我们可以通过业务规则自行计算例如涨停价、跌停价等盘前信息。
3.参考第三方数据
当缺失数据找不到相应的数据源时,可以参考第三方数据源进行补充。但该方法只能作为应急措施,如果对第三方数据有依赖,会产生以下不良后果:①数据依赖于第三方,即一定晚于其提供时间,在面对客户,尤其是机构客户时,不及时的数据,不能产生任何竞争力甚至不能产生效益;②过于被动,受到账号、第三方访问权限等多方面的限制;③容易产生法律风险。
(六)异常与错误数据清洗
当发现明显的异常数据时,通常会首先确定数据情况,如果是正确的数据,则正常入库,但是需要对这种数据异常的情况做岀特殊说明;如果经过验证,确定该异常属于错误,则需要修正为正确数据。
在日常的生产和运维中,对于数据正确性的监控,我们采用了逻辑质检、第三方质检、随机抽査等多种质检方式。
1.逻辑质检
逻辑质检的过程伴随着每天的日常生产和监控:
(1)在人工录入的时候,录入临时表质检关系会对异常数据进行拦截,不满足质检关系的数据需要人工审核才能进入录入历史库。
(2)对于极其重要的数据表需要进行双录入处理,即同一记录两个录入人员同时录入,数据不一致时无法入库,因此,避免了由于录入人员主观原因造成的数据错误。
(3)中心库日常质检,包括ETL质检和数据质检,如质检不通过,则不会调度进入下一环节数据库。
而这些常规逻辑校验的规则是根据分析师给出的业务规则建立最初始化的质检关系。
根据金融业务背景知识挖掘,任何一个数据都会反映一个具体的信息,具体到金融数据而言,或反映某个金融理论,或反映某个金融法律法规,在了解这些背景的前提下,可以挖掘出大量对应的逻辑质检关系。例如,股票日交易信息里的涨跌幅必须满足不大于10%这个条件,这是交易所的规则。
表之间的关联关系也可以利用,一个金融数据库是一个有机结合在一起的整体,表与表之间,数据与数据之间存在大量的内在逻辑关联关系。在熟悉整个数据库的前提下.各个表之间进行关联是可以挖掘出大量的逻辑质检关系的。例如,分析师预测指标文件里的“净利润”这个字段,与实际披露的财务报表里的信息是不应该相差太远的。
2.第三方质检
通过和第三方数据源进行对比,对数据的完整性、准确性进行质检。第三方质检需严格执行以下几个步骤:
(1)评估可对比性和有效性。评估双方数据是否存在可以对比的内容,评估双方数据对比的效果。
(2)建立模型。获得可用的数据后,将各方数据进行精细加工,达到可以对比的状态。
(3)质检结果。模型建立之后,执行质检得到质检结果,进行初步分析,确认对比结果有效。
(4)结果处理。第三方质检不一定能全部覆盖一张表的所有字段,在进行第三方数据检测结果的清洗时,不仅要对显性的结果进行核查,隐性的结果也要一并核査,即对比没有覆盖到的字段也要核查。处理结果严格分为三大类:第三方错、我方错、双方处理规则不一致。
(5)复查。对返回的处理结果进行复査,以确定处理结果有效。
(6)统计。根据复查确定后的处理结果进行统计,并给出最后的质量评估报告。
(7)提炼质检关系。根据质检报告统计的错误提炼质检关系。
3.随机抽查
随机抽查是对常规逻辑质检和第三方质检的重要补充,数据质检抽查机制严格遵循以下制度进行:
(1)抽查内容包括数据库表结构审査,所有历史数据的整体审査,对照数据源详细核査数据,以防数据源出现修整或调整。
(2)异常反馈。表结构问题,历史数据整体审查岀的问题需要与分析师一起进行确认,详细核查出的数据错误需要发送至生产部相关负责人进行确认并修正。
(3)质检关系提炼。针对抽查出的数据错误提炼针对性的质检关系,清洗类似的数据错误,并且将提炼岀的质检关系加入日常监控。
除上述质检方法之外,也会根据客户提出的疑问和反馈,对数据进行检验,并同时根据检验结果丰富质检关系,纳入日常监控。
另外,特别需要提到的是,当历史数据由于业务规则或法律法规发生变化,而需要做出调整时,我们需要进行重点关注。
由于各种分析和研究的需要,往往是站在现在的角度看历史的情况,以期找到市场规律性的变化,因此首先需要保证的是,数据的口径需要保持一致,否则会对使用者造成困扰。所以,对于历史数据口径有变更的情况,我们需要判断:
(1)如发生的是比较微小的局部调整,则历史数据无须变更。
(2)如该变更有重大影响,并且数据有重要意义,则需要根据新口径对历史数据进行追溯调整。但注意,进行这一步时,需要首先判断这种追溯是可操作的,不存在追溯后数据质量明显变差的情况方可进行,同时需要将调整前的历史数据进行完整备份。
二、衍生与去噪
(一)金融投资基本面分析
基本面分析是依据证券的内在价值,对影响证券价格及其走势的因素进行综合分析,判断哪种证券具有投资价值。基本面分析的假设是:证券的价格是由其内在价值决定的,但是由于受到政治、经济、心理等因素的影响很难与价值完全一致,但总是围绕价值上下波动。理性的投资者应根据二者的关系进行投资决策。一般的基本面分析会从宏观经济面开始,然后再进行行业分析,最后是公司分析、产品分析等。
1.宏观经济分析
宏观经济分析主要从宏观经济运行、国家政策、国际环境等角度多方面进行信息处理和研究。它主要从公司经营状况、市场对股价的期望、国家的发展情况、货币政策以及国际市场的动荡对证券市场进行影响。
例如,国家发展状况中经济周期对股票市场的影响,可以表现在经济还没有走出谷底时,股价已经开始回升,这是因为投资者对经济周期的一致判断所引起的。我们通常称股市是虚拟经济,现实经济为实物经济,两者相互影响。由于诸多因素,经济运行不会一直处于均衡状态。一般而言,证券市场运行周期比实物经济周期更为提前。
2.行业分析
行业分析主要是对社会经济的各组成部分进行具体分析。社会经济的发展水平和增长速度反映了各组成部分的平均水平和速度,但各部门的发展并非都与总体水平保持一致。因此,宏观分析为证券投资提供了背景条件,但没有解决如何投资、投在哪里的问题,所以还需要行业分析。
在我国证券市场的行业分类中,包含上证指数分类法、深证指数分类法,还有其他划分方法。上海证券市场为编制新的沪市成分指数,将全部上市公司分为五类,即工、商、地产、公用事业和综合类,并分别计算和公布各分类股价指数。深证指数分类法则将在深市上市的全部公司分成六类,即工、商、金融、地产、公用事业和综合类,同时计算和公布各分类股价指数。这两种分类并不完全,其原因与我国证券市场发展状况尚处在较初级阶段有关。
3.公司分析
公司分析主要从财务报表、事件等角度进行研究为投资提供参考。
对股票估值的方法有多种,从投资者预期回报、企业盈利能力或企业资产价值等不同角度出发,比较常用的是市盈率(PE)、市价账面值比率(PB)、现金折现比率,和市盈率相对每股盈利增长率的比率(PEG)等。有的投资者则喜欢用股本回报率或资产回报率来衡量一个企业的业绩。
上市公司财务报表由资产负债表、利润表及现金流表组成,常用的公司财务指标包括以下几个方面:①变现能力比率。包括流动比率、速动比率。变现能力是企业产生现金的能力,它取决于可以在近期转变为现金的流动资产的多少。②资产管理比率。包括存货周转率、存货周转天数、应收账款周转率、应收账款周转天数、营业周期、流动资产周转率、总资产周转率等。③负债比率。包括资产负债比率、产权比率、有形净值债务率、已获利息倍数等。负债比率是反映债务和资产、净资产关系的比率。它反映企业偿付到期长期债务的能力。④盈利能力比率。包括销售净利率、销售毛利率、资产净利率(总资产报酬率)等。盈利能力就是企业赚取利润的能力。不论是投资人还是债务人,都非常关心这个项目。在分析盈利能力时,应当排除证券买卖等非正常项目、已经或将要停止的营业项目、重大事故或法律更改等特别项目、会计政策和财务制度变更带来的累积影响数等因素。
上市公司事件分析是公司基本面分析的重点之一。常见的公司事件包括增持与回购、分红派息、兼并收购和增发配股。增持与回购有四个作用,稳定股价提升信心为主要作用。上市公司回购增持股份的原因有四个方面:增厚每股收益和每股净资产,提升股东价值;提高公司的经营杠杆比例;因个人避税方面的原因,红利税低于资本利得税;管理层将股份回购作为一种信号,向投资者表明公司的股票被低估。在实践中,第四种原因是促使上市公司回购或者增持股份的主要原因。股份公司经营一段时间后(一般为一年),如果营运正常,产生了利润,就要向股东分配股息和红利。其交付方式一般有三种:①以现金的形式向股东支付。这是最平常最普通的形式。②向股东配股。采取这种方式主要是为了把资金留在公司里扩大经营,以追求公司发展的远期利益和长远目标。③实物分派。即把公司的产品作为股息和红利分派给股东。兼并(Merger)又称吸收合并,指两家或者更多的独立企业,合并组成一家企业,通常由一家占优势的公司吸收一家或者多家公司进自己的企业,并以自己的名义继续经营,而被吸收的企业在合并后丧失法人地位,解散消失。收购(Acquisition)是指一家企业用现金或者有价证券购买另一家企业的股票或者资产,以获得对该企业的全部资产或者某项资产的所有权,或对该企业的控制权。兼并收购简称并购。增发配股指上市公司以原股权为基础,再次向股票持有人增加股权的行为。公司配股是指公司为融资而向公司股东发行股票的一种股权融资方式,即其所融资金来源于公司原股东。在我国上市公司中,从近些年的配股实践中可以发现两个有趣的现象:一是配股行为在牛市中比较多,二是非流通股东放弃配股权的现象非常普遍。增发与配股相似,也是公司融资的一种方式。与配股所不同的是,配股是向全体股东按比例进行配售(以前配股的实践中,绝大多数非流通股东是自动放弃配股权的),而增发一般是向原股东之外的投资者发行股票。
(二)金融投资技术分析
如果基本面分析通过对经济形势和公司消息面以找岀被低估的金融产品(股票)进行价值投资,那么技术分析是以预测市场价格变化的未来趋势为目的,以图表为主要手段对市场行为进行的研究,其所选股票可能脱离了公司基本面,当前价格可能高于真正价格。
市场行为包容消化一切,价格以趋势方式演变,历史会重演是技术分析的三个基本假设。“市场行为包容消化一切”构成了技术分析的基础。技术分析者认为,能够影响某种商品期货价格的任何因素(基础的、政治的、心理的或任何其他方面的)实际上都反映在其价格中,即价格反映一切。“趋势”概念是技术分析的核心。研究价格图表的全部意义就是要在一个趋势发展的早期及时准确地把它揭示出来,从而达到顺着趋势交易的目的。技术分析和市场行为学与人类心理学有着千丝万缕的联系。如价格形态,它们通过一些特定的价格图表形状表现岀来,而这些图形表示了人们对某市场看好或看淡的心理,“历史会重演”说得具体点就是:过去的形态会在未来显现。
1.常用技术指标
目前,证券市场上的各种技术指标数不胜数。例如,简单移动平均线(SMA)、相对强弱指标(RSI)、随机指标(KDJ)、趋向指标(DMI)等,这些都是很常用的指标,在股市应用中长盛不衰。
(1)简单移动平均线(SMA)o简单移动平均线(SimpleMovingAverage,SMA),原本的意思是移动平均,由于我们将其制作成线形,所以一般称为移动平均线,简称均线。它是将某一时间的收盘价除以该周期,比如日线MA5指5天内的收盘价除以5O
移动平均线常用线有5天、10天、30天、60天、120天和240天的指标。其中,5天和10天的短期移动平均线是短线操作的参照指标,称做日均线指标;30天和60天的移动平均线是中期均线指标,称做季均线指标;120天、240天的是长期均线指标,称做年均线指标。
移动平均线是由著名的美国投资专家JosephE.Granville(葛兰碧,又译为格兰威尔)于20世纪中期提岀来的。均线理论是当今应用最普遍的技术指标之一,它帮助交易者确认现有趋势、判断将出现的趋势、发现过度延生即将反转的趋势。如图2-6所示。
1)上升行情初期,短期移动平均线从下向上突破中长期移动平均线,形成的交叉叫黄金交叉。预示股价将上涨:黄色的5日均线上穿紫色的10日均线形成的交叉;10日均线上穿绿色的30日均线形成的交叉均为黄金交叉。
2)当短期移动平均线向下跌破中长期移动平均线形成的交叉叫做死亡交叉。预示股价将下跌。黄色的5日均线下穿紫色的10日均线形成的交叉;10日均线下穿绿色的30日均线形成的交叉均为死亡交叉。
但是,不是所有的黄金交叉和死亡交叉都是进货点和出货点。原因是庄家有时会进行骗线。尤其是在上升途中或者下跌途中,庄家可能会进行震荡洗盘或震荡出货。此时,黄金交叉和死亡交叉所指示的买卖点是非常不可靠的,这种情况下,投资者应该小心。如图2-7所示。
图2-6 移动平均线示意图 图2-7“黄金交叉”与“死亡交叉”示意图
(2)相对强弱指标(RSI)。相对强弱指标(RelativeStrengthIndex,RSI)是期货市场和股票市场中最著名的摆动指标,它是韦尔斯•王尔德(WellesWilder)首创的其原理就是通过计算股价涨跌的幅度来推测市场运动趋势的强弱度,并据此预测趋势的持续或者转向。实际上它显示的是股价向上波动的幅度占总的波动幅度的百分比,如果其数值大,就表示市场处于强势状态,如果数值小,则表示市场处于弱势,该指标通常称作RSI指标。这是一个测市的重要指标,但它的作用与股票和期货的市值大小有着密切的关系,盘子大的波动幅度小,盘子小的波动幅度大。其具体的计算方法是:
RSI(n)=A/(A+B)x100%
其中,A表示n天中股价向上波动的幅度大小,B表示n天中股价向下波动的大小。A+B表示股价在此期间总的波动幅度大小。
RSI计算公式说明:
LC:=REF(CLOSE,1)昨天收盘价
RSI:SMA(MAX(CLOSE-LC,0),N,D/SMA(ABS(CLOSE-LC),N,1)x100
RSI的研判主要是围绕RSI的取值、长期RSI和短期RSI的交叉状况及RSI的曲线形状等展开的。一般分析方法主要包括RSI取值的范围大小、RSI数值的超卖超买情况、长短期RSI线的位置及交叉等方面。
RSI取值大小说明:
图2-8 相对强弱指标
RSI的变动范围在0-100,强弱指标值一般分布在20-80
RSI值市场特征投资操作
80-100极强卖出
50〜80强买入
20〜50弱观望
0~20极弱买入
这里的“极强”、“强”、“弱”、“极弱”只是一个相对的分析概念,是一个相对的区域。有的投资者也可把它们取值为30、70或15、85。另外,对于所取的RSI参数的不同以及不同的股票,RSI的取值大小的研判也会不同。
数值超买超卖:
一般而言,RSI的数值在80以上和20以下为超买超卖区的分界线。
1)当RSI值超过80时,则表示整个市场力度过强,多方力量远大于空方力量,双方力量对比悬殊,多方大胜,市场处于超买状态,后续行情有可能出现回调或转势,此时,投资者可卖出股票。
2)当RSI值低于20时,则表示市场上卖盘多于买盘,空方力量强于多方力量,空方大举进攻后,市场下跌的幅度过大,已处于超卖状态,股价可能出现反弹或转势,投资者可适量建仓、买入股票。
3)当RSI值处于50左右时,说明市场处于整理状态,投资者可观望。
4)对于超买超卖区的界定,投资者应根据市场的具体情况而定。一般情况下,RSI数值在80以上就可以称为超买区,20以下就可以称为超卖区。但有时在特殊的涨跌行情中,RSI的超卖超买区的划分要视具体情况而定。比如,在牛市中或对于牛股,超买区可定为90以上,而在熊市中或对于熊股,超卖区可定为10以下(对于这点是相对于参数设置小的RSI而言的,如果参数设置大,则RSI很难到达90以上和10以下)。
长短期交叉情况:
短期RSI是指参数相对小的RS1,长期RSI是指参数相对较长的RSIo如6日RSI和12日RSI中,60RSI即为短期RSI,12日RSI即为长期RSI。长短期RSI线的交叉情况可以作为我们研判行情的方法。
1)当短期RSI>长期RSI时,市场则属于多头市场。
2)当短期RSI<长期RSI时,市场则属于空头市场。
3)当短期RSI线在低位向上突破长期RSI线时,一般为RIS指标的“黄金交叉”,为买入信号。
4)当短期RSI线在高位向下突破长期RSI线时,一般为RSI指标的“死亡交叉”,为卖出信号。
(3)随机指标(KDJ)oKDJ指标的中文名称为随机指标,最早起源于期货市场,由乔治•莱恩(GeorgeLane)首创。随机指标(KDJ)最早是以KD指标的形式出现,而KD指标是在威廉指标的基础上发展起来的。不过KD指标只判断股票的超买超卖的现象,在KDJ指标中则融合了移动平均线速度上的观念,形成比较准确的买卖信号依据。在实践中,K线与D线配合J线组成KDJ指标来使用。KDJ指标在设计过程中主要是研究最高价、最低价和收盘价之间的关系,同时也融合了动量观念、强弱指标和移动平均线的一些优点。因此,能够比较迅速、快捷、直观地研判行情,被广泛用于股市的中短期趋势分析,是期货和股票市场上最常用的技术分析工具。
图2-9随机指标KDJ
KDJ的计算比较复杂,首先要计算周期(n日、n周等)的RSV值,即未成熟随机指标值,然后再计算K值、D值、J值等。以日KDJ数值的计算为例,其计算公式为:
n日RSV=(Cn-L„)于(HDX100
公式中,C“为第n日收盘价;L为n日内的最低价;H_为n日内的最高价。RSV值始终在1~100波动。
其次,计算K值与D值:
当日K值=2/3x前一日K值+1/3x当日RSV
当日D值=2/3x前一日D值+1/3X当日K值
若无前一日K值与D值,则可分别用50来代替。
J值=3x当日K值-2x当日D值
1)K与D值永远介于0~100oD大于70时,行情呈现超买现象;D小于30时,行情呈现超卖现象。
2)K大于D时,显示趋势是向上涨,因此K线突破D线时,为买进信号。当D值大于K值时,趋势下跌,K线跌破D线时为卖出信号。
3)KD指标不仅能反映岀市场的超买超卖程度,还能通过交叉突破发岀买卖信号。
4)KD指标不适于发行量小、交易不活跃的股票,但是KD指标对大盘和热门大盘股有极高准确性。
5)当随机指标与股价出现背离时,一般为转势的信号。
6)K值和D值上升或者下跌的速度减弱,倾斜度趋于平缓是短期转势的预警信号。
面对变幻莫测的中国股市行情,学会并准确利用相关技术指标进行股票分析就显得很有必要,它可以帮助我们更好地抓住规律,更好地着手操作。下面从五个方面讲解炒股的入门知识关于KDJ指标的分析。
第一个方面,KD指标的背离。在KD处在高位或低位时,如果出现与股价走向的背离,则是采取行动的信号。
第二个方面,J指标取值超过100和低于0,都属于价格的非正常区域,大于100为超买,低于0为超卖。
第三个方面,KD的取值。KD的统一取值范围是0-100,可以将其划分为3个区域:80以上为超买区,20以下为超卖区,其余为徘徊区。但是,股票投资者需要注意的是这种划分只是一个信号提示,不能完全按这种分析方法进行操作。
第四个方面,KD指标的交叉。K与D的关系就如同股价与MA的关系一样,也有死亡交叉和黄金交叉的问题。
第五个方面,KD指标曲线的形态。当KD指标在较高或较低的位置形成了头肩形和多重顶(底)时,是采取行动的信号。这里股票投资者同样需要注意的是,这些形态一定要在较高位置或较低位置出现,位置越高或越低,结论越可靠。
(4)动向指标(DirectionalMovementIndex.DMI)oDMI指标又叫动向指标或趋向指标,也是由美国技术分析大师威尔斯•威尔德(WellsWilder)所创造的,是一种中长期股市技术分析方法。
DMI指标是通过分析股票价格在涨跌过程中买卖双方力量均衡点的变化情况,即多空双方的力量的变化受价格波动的影响而发生由均衡到失衡的循环过程,从而提供对趋势判断依据的一种技术指标。
DMI指标的基本原理是在寻找股票价格涨跌过程中,股价借以创新高价或新低价的功能,研判多空力量,进而寻求买卖双方的均衡点及股价在双方互动下波动的循环过程。在大多数指标中,绝大部分都是以每日的收盘价的走势及涨跌幅的累计数来计算出不同的分析数据,其不足之处在于忽略了每日的高低之间的波动幅度。如某个股票的两日收盘价可能是一样的,但其中一天上下波动的幅度不大,而另一天股价的震幅却在10%以上,那么这两日的行情走势的分析意义决然不同,这点在其他大多数指标中很难表现出来。而DMI指标则是把每日的高低波动的幅度因素计算在内,从而更加准确地反映行情的走势及更好地预测行情未来的发展变化。
以计算HDMI指标为例,其运算的基本程序主要为:
1)按一定的规则比较每日股价波动产生的最高价、最低价和收盘价,计算出每日股价的波动的真实波幅、上升动向值、下降动向TR、+DI、-DI,在运算基准日基础上按一定的天数将其累加,以求n日的TR、+DM和DM值。
图2-10动向指标DMI
2)将n日内的上升动向值和下降动向值分别除以n日内的真实波幅值,从而求出n日内的上升指标+DI和下降指标-DI。
3)通过n内的上升指标+DI和下降指标-DI之间的差和之比,计算岀每日的动向值DXO
4)按一定的天数将DX累加后平均,求得n日内的平均动向值ADX。
5)再通过当日的ADX与前面某一日的ADX相比较,计算出ADX的评估数值ADXR0
动向指数的当日动向值分为上升动向、下降动向和无动向三种情况,每日的当日动向值只能是三种情况的一种。
①上升动向(+DM)O+DM代表正趋向变动值即上升动向值,其数值等于当日的最高价减去前一日的最高价,如果W则+DM=0。
②下降动向(-DM)0-DM代表负趋向变动值即下降动向值,其数值等于前一日的最低价减去当日的最低价,如果W0则-DM=0。注意-DM也是非负数。
再比较+DM和-DM.较大的那个数字保持,较小的数字归0。
③无动向。无动向代表当日动向值为“零”的情况,即当日的+DM和-DM同时等于零。有两种股价波动情况下可能出现无动向:一是当日的最高价低于前一日的最高价并且当日的最低价高于前一日的最低价,二是当日上升动向值正好等于下降动向值。
TR代表真实波幅,是当日价格较前一日价格的最大变动值。取以下三项差额中的最大值(取绝对值)为当日的真实波幅:①当日的最高价减去当日的最低价的价差。②当日的最高价减去前一日的收盘价的价差。③当日的最低价减去前一日的收盘价的价差。TR是A、B、C中的数值最大者。
方向线D1是衡量股价上涨或下跌的指标,分为“上升指标”和“下降指标”。在有的股市分析软件上,+DI代表上升方向线,-DI代表下降方向线。其计算方法如下:
+DI=(+DM+TR)X100
-Dl=(-DM+TR)x100
要使方向线具有参考价值,则必须运用平滑移动平均的原理对其进行累积运算。以12日作为计算周期为例,先将12日内的+DM、-DM及TR平均化,所得数值分别为+DM12、-DM12和TR12,具体如下:
+DI(12)=(+DM12+TR12)x100
-DI(12)=(-DM124-TRI2)x100
随后计算第13天的+DI12、-DI12或TR12时,只要利用平滑移动平均公式运算即可。上升或下跌方向线的数值永远介于0-100.
动向平均数ADXo依据DI值可以计算出DX指标值。其计算方法是将+DI和-DI间的差的绝对值除以总和的百分比得到动向指数DX。由于DX的波动幅度比较大,一般以一定的周期的平滑计算,得到平均动向指标ADXO具体过程如下:
DX=(DIDIF-?DISUM)xlOO
其中,DIDIF为上升指标和下降指标的差的绝对值;DISUM为上升指标和下降指标的总和;ADX就是DX的一定周期n的移动平均值。
上升指标+DI和下降指标-DI的研判功能。
①当股价走势向上发展,而同时+DI从下方向上突破-DI时,表明市场上有新买家进场.为买入信号,如果ADX伴随上升,则预示股价的涨势可能更强劲。
②当股价走势向下发展,而同时+DI从上向下突破-DI时,表明市场上做空力量在加强.为卖出信号,如果ADX伴随上升,则预示跌势将加剧。
③当股价维持某种上升或下降行情,+DI和-DI的交叉突破信号比较准确,但当股价维持盘整时,应将+DI和-DI交叉发出的买卖信号视为无效。
平均动向指标ADX的研判功能。ADX为动向值DX的平均数,而DX是根据+DI和-DI两数值的差和对比计算出来的百分比,因此,利用ADX指标将更有效地判断市场行情的发展趋势。
第一,判断行情趋势。当行情走势由横盘向上发展时,ADX值会不断递增。因此,当ADX值高于前一日时,可以判断当前市场行情仍在维持原有的上升趋势,即股价将继续上涨,如果+DI和-DI同时增加,则表明当前上升趋势将十分强劲。
当行情走势进入横盘阶段时,ADX值会不断递减。因此,判断行情时,应结合股价走势(+DI和-DD进行判断。
当行情走势由盘整向下发展时,ADX值会不断递减。因此,当ADX值低于前一日时,可以判断当前市场行情仍维持原有的下降趋势,即股价将继续下跌,如果+DI和-DI同时减少,则表示当前的跌势将延续。
第二,判断行情是否盘整。当市场行情在一定区域内小幅横盘盘整时,ADX值会出现递减情况。当ADX值降至20以下且呈横向窄幅移动时,可以判断行情为牛皮盘整,上升或下跌趋势不明朗,投资者应以观望为主,不可依据+DI和-DI的交叉信号来买卖股票。
第三,判断行情是否转势。当ADX值在高点由升转跌时,预示行情即将反转。在涨势中的ADX在高点由升转跌,预示涨势即将告一段落;在跌势中的ADX值从高位回落,预示跌势可能停止。
(5)指数平滑异同平均线(MACD)。MACD在应用上应先行计算岀快速(一般选120)移动平均值与慢速(一般选260)移动平均值。以这两个数值作为测量两者(快速
与慢速线)间的“差离值”依据。所谓“差离值”(DIF),即12日EMA数值减去26日EMA数值。因此,在持续的涨势中,12日EMA在26日EMA之上。其间的正差离值(+DIF)会越来越大。反之在跌势中,差离值可能变负(-D1F),也越来越大。至于行情开始回转,正或负差离值要缩小到怎样的程度,才真正是行情反转的信号。MACD的反转信号界定为“差离值”的9日移动平均值(9日EMA)。在MACD的指数平滑移动平均线计算公式中,都分别加T+1交易日的分量权值,以现在流行的参数12和参数26为例,其公式如下:
12日EMA的计算:EMA12=前一日EMA12x11/13+今日收盘x2/13
26日EMA的计算:EMA26=前一日EMA26x25/27+今日收盘x2/27
差离值(DIF)的计算:DIF=EMA12-EMA26
根据离差值计算其9日的EMA,即离差平均值,是所求的MACD值。为了不与指标原名相混淆,此值又名DEA或DEM。
今日DEA=(前一日DEAx8/10+今日DIFx2/10)
计算岀的DIF与DEA为正或负值,因而形成在0轴上下移动的两条快速与慢速线。为了方便判断,用DIF减去DEA,用以绘制柱状图。
MACD指标是由两线一柱组合起来形成,快速线为DIF,慢速线为DEA,柱状图为MACDo在各类投资中,有以下方法供投资者参考:
①当DIF和MACD均大于0(在图形上表示为它们处于零线以上)并向上移动时,一般表示为行情处于多头行情中,可以买入开仓或多头持仓。
②当DIF和MACD均小于0(在图形上表示为它们处于零线以下)并向下移动时,一般表示为行情处于空头行情中,可以卖出开仓或观望。
③当DIF和MACD均大于0(在图形上表示为它们处于零线以上)但都向下移动时,一般表示为行情处于下跌阶段,可以卖出开仓或观望。
④当DIF和MACD均小于0(在图形上表示为它们处于零线以下)但向上移动时,一般表示为行情即将上涨,股票将上涨,可以买入开仓或多头持仓。
(6)能量潮(OBV)。能量潮是将成交量数量化,制成趋势线,配合股价趋势线,从价格的变动及成交量的增减关系,推测市场气氛。其主要理论基础是市场价格的变化必须有成交量的配合,股价的波动与成交量的扩大或萎缩有密切的关联。通常股价上升所需的成交量总是较大;下跌时,则成交量可能放大也可能较小。价格升降而成交量不相应升降,则市场价格的变动难以为继。
能量潮指标(OnBalanceVolume,OBV)是JoeGranville于20世纪60年代提出的,并被广泛使用。股市技术分析的四大要素为价、量、时、空。OBV指标就是以“量”这个要素作为突破口,来发现热门股票、分析股价运动趋势的一种技术指标。它是将股市的人气——成交量与股价的关系数字化、直观化,以股市的成交量变化来衡量股市的推动力,从而研判股价的走势。关于成交量方面的研究,OBV能量潮指标是一种相当重要的分析指标之一O
OBV指标由OBV值和OBV线构成,将"量的平均"概念加以延伸,认为成交量是股市的元气,股价只不过是它的表象特征而已。因此,成交量通常比股价先行。这种“先见量、后见价”的理论早已为股市所证明。能量潮理论成立的依据主要是:
①投资者对股价的评论越不一致,成交量越大;反之.成交量就小。因此,可用成交量来判断市场的人气和多空双方的力量。
②重力原理。上升的物体迟早会下跌,而物体上升所需的能量比下跌时多。涉及股市则可解释为:一方面,股价迟早会下跌;另一方面,股价上升时所需的能量大,因此股价的上升特别是上升初期必须有较大的成交量相配合;股价下跌时则不必耗费很大的能量,因此成交量不一定放大,甚至有萎缩趋势。
③惯性原则——动则恒动、静则恒静。只有那些被投资者或主力相中的热门股会在很长一段时间内成交量和股价的波动都比较大,而无人问津的冷门股,会在一段时间内,成交量和股价波幅都比较小。
以某日为基期,逐日累计每日上市股票总成交量,若隔日指数或股票上涨,则基期OBV加上本日成交量为本H0BVo隔日指数或股票下跌,则基期OBV减去本日成交量为本日OBV。一般来说,只是观察OBV的升降并无多大意义,必须配合K线图的走势才有实际的效用。
图2-12能量潮OBV
由于OBV的计算方法过于简单化,所以容易受到偶然因素的影响,为了提高OBV的准确性,可以釆取多空比率净额法对其进行修正。
多空比率净额=[(收盘价-最低价)-(最高价-收盘价)]+(最高价-最低价)xV
该方法根据多空力量比率加权修正成交量,比单纯的OBV法具有更高的可信度。
2.技术指标对比与优化
绝大部分技术指标是由价格、成交量、持仓量(期货)及时间这四种基础变量组成,所有技术指标都是由数值的或能数值化,因此可以根据投资者所设定的目标,对变量进行建模及优化参数来使目标最优化。
一般优化目标主要有:收益最大化、标准差最小化、夏普比率最大、成功率最高、最大回撤比最小、交易次数不多等来全面评价指标的优劣。待优化的参数主要有(每个指标有所差别):时间天数、权重、斜率、幅度等。主要约束条件有:资金、仓位等。主要优化方法有:循环遍历,现代智能优化算法(遗传算法、模拟退火算法、粒子群算法等),其他优化方法。优化方法中除了要考虑优化程度外,还需要考虑运行效率问题。根据历史目标最优得到一组合适的参数,再根据指标模型判断买卖点,参数组需要每天或者每几天刷新一次。
表2-10对各大技术指标在价格信息、交易量信息、平滑方式等方面进行了对比。
表2-10各技术指标的对比
普通投资者在选择最常用技术指标时,由于技术指标种类繁多和不同的参数可能会显示完全相反的操作信号,经常让大多数投资者无所适从。一种行情软件里面有上百种技术指标,这些指标大多是从成熟的海外市场引进的。面对海量的技术指标及其参数调整,投资者经常陷入几个择时误区:
(1)使用前未检验指标的有效性。很少有投资者在使用指标前认真测试过该指标在历史上是否长期有效,是否存在显著的超额收益,胜率如何,参数是否最优。更多的是采用最常用的技术指标,沿用默认的参数,进行简单的、主观的择时,或者完全靠感觉、凭经验择时。事实上有些指标的参数有很大的改善空间。
(2)使用的指标技术不固定。有些投资者会在不同时期选择不同的技术指标——有时采用均线类指标,有时釆用超买指标;有时选择中长线指标,有时又选择短线指标。每种指标都是在一定的市场环境下才有效的,如果选择过多,会干扰判断。
(3)择时意志不坚定。一旦选择某些历史上长期有效的技术指标,就应当严格按照技术指标进行操作。有许多投资者有时择时,有时不择时,买进股票后,即使所选技术指标发出强烈的卖出信号,也会抱有侥幸的心理,认为下跌只是暂时的,并未“有效击穿”支撑线,等到股价继续下跌后,股票被套牢,更不愿意“割肉”岀局。
(4)采用生僻的技术指标择时。有些投资者认为,一些常用的技术指标已被众多投资者使用,因此很难获得超额收益,而釆用一些生僻的技术指标,但是,这些指标择时效果并不理想。事实上,有些技术指标使用的人越多越有效。如均线系统,使用的人多了,一些支撑线、阻力线就更加明显。
三、数据标准化
在本章第一节中提到了量化因子,由于股票的属性受到各种指标或因素影响,如有的是大盘股,有的是小盘股,有的是髙价股,有的是低价股,由于各指标所代表的含义不同,因此存在着量纲上的差异。这种异量纲性是影响对事物整体评价的主要因素,但剔除这些量纲的影响并非易事。数据的标准化、规格化,是一种通过数学变换或数据处理来消除原始变量量纲影响的方法。实际处理过程中,有以下五种处理方式:
1.同性化——去除金融产品间不同
比较典型的案例即为E/P、B/P,通过对每股收益和每股净资产除以每股价格,剔除了价格的影响。
市净率是指每股股价与每股净资产的比率。市净率可用于投资分析。每股净资产是股票的账面价值,它是用成本计量的,而每股市价是这些资产的现在价值,它是证券市场上交易的结果。市价高于账面价值时企业资产的质量较好,有发展潜力;反之则资产质量差,没有发展前景。优质股票的市价都超岀每股净资产许多,一般说来市净率达到3可以树立较好的公司形象。市价低于每股净资产的股票,就像售价低于成本的商品一样,属于“处理品”。当然,“处理品”也不是没有购买价值,问题在于该公司今后是否有转机,或者购入后经过资产重组能否提高获利能力,是市价与每股净资产之间的比值,比值越低意味着风险越低。
市盈率法是指以行业平均市盈率(P-ERatios)来估计企业价值,按照这种估价法,企业的价值得自于可比较资产或企业的定价。这里假设,同行业中的其他企业可以作为被估价企业的“可比较企业”,平均市盈率所反映的企业绩效是合理而正确的。市盈率估价法通常被用于对未公开化企业或者刚刚向公众发行股票的企业进行估价。
2.正态化——去除时间序列中不同
统计上常见标准化的方式是进行正态化处理,即计算Z-score得分。
Z—score=[x-mean(x)]/std(x)
当然,因为在实际处理过程中,往往存在着异常点和异常值,在处理过程中,还会先剔除异常值,再进行标准化。
3.排序——寻找相对关系
秩相关系数又称等级相关系数或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
常见的秩相关系数有两种:Kendalltau相关系数和Speannanrho秩相关系数。
Kendallt相关系数(Kendall'st)这里的度量原理是把所有的样本点配对[如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(xi,yj和(x?,yj的点对],然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(X,,y,)和(狗,
y2).可以算出乘积(x2-x,)(y2-y,)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(Concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(Discordant)的点数目多,两个变量就不很相关。
Speaiman秩相关系数(SpearmanRankCorrelationCoefl'icient或Spearman'sr)它和
Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在_1~1,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。
4.分区间缩小对比数量
寻找股票的统计特征是进行量化投资的基础,但是金融数据是噪声最大的数据源。如何通过繁杂的数据来寻找稳健且有效的统计规律是一个相当复杂的问题。其中一个有效方式是将样本分类、分区间。如根据股票价格,将股票分为高价股、低价股、中价股;根据股票市值,将股票分为大盘股、小盘股和中盘股。划分的方式往往也分为两种:一种是按照绝对值对股票进行划分;另一种是按照相对值对股票进行划分(分位点)。
5.正态映射——去除尖峰和肥尾
Osborne(1959)、Friedman与Laibson(1989)等的实证检验提供了足够的证据表明股市收益率通常是一种尖峰肥尾的分布。股票市场也往往会出现“黑天鹅事件”。因子的分布也是如此,往往因子的分布并非正态分布,也存在着大量的异常值,而大部分预测模型还是假定股票服从正态分布。为了剔除分布和异常值的影响,对于原始数据需要进行正态映射。
在《高等数理统计》(茹诗松、王静龙)中指出:
(1)若F(X)为连续随机变量X的分布函数,则Y=F(X)~U(0,1)。
(2)若Y~U(O,1),则u=F(-n(Y)-F(x)o
从而,对任意一个样本x,经其经验累计密度函数变化后,可以转化为[0,1]均匀分布,在经正态分布累计函数逆函数变化之后,可以得到N(0,1)均匀分布,如图2-13所示。
图2-13从任意分布至正态分布的变换