常用的数据集测试的有哪些步骤?
数据集测试的基本假设是,对于某个证券,我们所接收到的数据服从的分布是不随时间变化的,并且以不同频率进行采样时,数据的分布性质也应该是一致的,例如,美元/加元的I分钟数据的分布应该与过去一年的1分钟历史数据的分布一致。当然,数据集测试允许分布随时间有些许变化,但是这个变化不能太剧烈,除非是当时发生了大规模市场崩溃的情形。
一个比较常用的数据集测试方法是检验自相关系数的一致性。其实现步骤如下:
1.以给定频率对数据集进行采样,比如说,以10秒为间隔。
2.以30-1000个观察值为移动窗口估计自相关系数。
3.将得到的自相关系数映射到一个分布,找出异常值,并明原因。我们还可以对分布的性质做进一步分析以回答如下问题:
分布特性在过去一个月、一个季度或是一年里是否有改变?
这些改变是代码版本不同引起的吗?是不是在产品包中增加或移除了一些程序导致的?
以上的测试应当在不同的抽样频率之下重复进行,以确保不存在系统性的偏差。