统计均值回归检验的基础

用户头像数学算法大哥
2023-03-27 发布

量化交易工具中一个关键的概念是均值回归。这个过程指的是一个时间序列,显示出恢复到历史平均值的趋势。数学上,这种连续的时间序列被称为奥恩斯坦-乌伦贝克过程。与随机行走(布朗运动)形成鲜明对比,随机行走没有在每个特定时刻位置的“记忆”。利用时间序列的均值回归特性可以产生有利可图的交易策略。本文将概述识别均值回归所需的统计检验以及平稳性的概念。

  1. 平稳性检验

    连续均值回归时间序列可以用奥恩斯坦-乌伦贝克随机微分方程表示:

其中θ是回归平均值的速率,u是过程的平均值,西格玛是过程的方差,是维纳过程或布朗运动。

在离散设置中,该方程表示,在加入高斯噪声的情况下,下一个时间段内价格序列的变化与平均价格和当前价格之间的差值成比例关系。
  1. 增强Dickey-Fuller(ADF)测试

    增强Dickey-Fuller(ADF)测试是一种用于检验时间序列平稳性的统计检验方法。它是对传统的Dickey-Fuller检验的改进和扩展,可以处理更广泛的时间序列类型和假设情况。ADF测试的基本思想是基于单位根检验,即检验时间序列中是否存在单位根,若存在,则该时间序列不是平稳的。在ADF测试中,对单位根进行了增强,通过引入滞后差分项来纠正序列中可能存在的自相关和趋势性。

    ADF测试的零假设是时间序列具有单位根,即非平稳性。当ADF统计量小于对应的临界值时,我们可以拒绝零假设,得出时间序列是平稳的结论。因此,ADF测试可以用于判断一个时间序列是否具有均值回归特性,以及是否适合应用一些统计模型,如ARIMA模型。

    需要注意的是,ADF测试只是一种检验时间序列平稳性的工具,对于其他特性,如序列的异方差性和序列之间的协整关系,需要使用其他检验方法。

    从数学上讲,ADF是一种基于测试自回归时间序列样本中单位根存在的想法。它利用了这样一个事实,即如果一个价格序列具有均值回归特性,那么下一个价格水平将与当前价格水平成比例。p阶线性滞后模型用于时间序列: 其中α是一个常数,β表示时间趋势的系数。ADF假设检验的作用是考虑=0的零假设,这将表明(在α=β=0的情况下)该过程是随机游走的,因此不具有均值回归特性。

    ADF测试的步骤如下:

  2. 确定要进行检验的时间序列,并确定要引入的滞后阶数(通常使用2-4阶)。
  3. 对时间序列进行差分,以消除序列中的趋势性和自相关。差分的阶数可以根据实际情况来确定。
  4. 估计带有滞后项的线性回归模型,其中依变量为差分后的时间序列,自变量为滞后项和常数项。
  5. 计算ADF统计量,其计算方式为将回归中的自变量进行单位根检验,得到的统计量类似于t统计量。当ADF统计量小于临界值时,拒绝零假设,即时间序列是平稳的。
  6. 确定临界值。由于ADF统计量的分布与样本大小和模型中使用的滞后项数有关,因此需要使用查找表或计算软件来确定对应的临界值。
  7. 判断结论。如果ADF统计量小于临界值,则可以拒绝零假设,即时间序列是平稳的。否则,不能拒绝零假设,即时间序列是非平稳的。

    需要注意的是,在进行ADF测试时,可能需要进行多次试验以确定最佳的滞后阶数和差分阶数,以及选择合适的模型。同时,由于样本大小和模型选择可能会影响ADF统计量的计算结果,因此需要谨慎地解释ADF测试的结果,避免过度解读。

    Dickey和Fuller预先计算了检验统计量的分布,这使得我们能够确定对于任何选定的百分比临界值,是否拒绝假设。由于测试统计量是一个负数,因此为了在临界值之外具有显著性,该数字必须比这些值更小(即更负),即小于临界值。

    对于交易员而言,一个重要的实际问题是,价格的任何长期恒定漂移幅度都比任何短期波动小得多,因此模型通常假设漂移为零(β=0)。考虑到我们在p阶滞后模型中进行考虑,因此我们需要将p设置为一个特定的值。对于交易研究而言,通常设置p=1就足够了,这样我们就可以拒绝零假设。

  8. 静态性测试

    在静态性测试中,如果时间序列(或随机过程)的联合概率分布在时间或空间上的平移下是不变的,则定义其为强平稳的。特别是,对于交易员来说,过程的平均值和方差不会随着时间或空间的变化而变化,它们都不会遵循趋势。平稳价格序列的一个关键特征是,序列中的价格以比几何布朗运动慢的速率从初始值扩散。通过测量这种扩散行为的速率,我们可以确定时间序列的性质。因此,我们现在将概述一种计算方法,它有助于我们描述时间序列的平稳性。

  9. 赫斯特指数

    赫斯特指数(Hurst exponent)是用于衡量时间序列长期依赖性的一种方法。它是由英国水文学家H.E.赫斯特于1951年提出的。赫斯特指数通常用于测量价格时间序列的波动性和交易策略的有效性。

    赫斯特指数是基于一个重要的统计物理概念,即自相似性。自相似性是指一个物体或系统的不同尺度下的部分之间具有相似性质。在时间序列中,自相似性表现为时间序列的小尺度部分和大尺度部分之间具有相似的统计特性。

    赫斯特指数的计算方法是基于对数价格序列的方差来评估扩散速率。对于任意时间滞后τ,方差可以通过以下公式给出: 由于我们将扩散速率与几何布朗运动的扩散速率进行比较,因此可以利用以下事实:在大于τ的情况下,在几何布朗运动的情况下,方差与τ成正比例: 但是,如果存在任何自相关性(即任何连续的价格走势都具有非零相关性),则上述关系将无效。相反,可以通过修改指数值“2H”来考虑这种自相关性,从而得出赫斯特指数H的值: 如果时间序列的赫斯特指数大于0.5,则表示该时间序列具有长期正相关性,即趋势性;如果赫斯特指数小于0.5,则表示该时间序列具有长期负相关性,即震荡性;如果赫斯特指数等于0.5,则表示该时间序列是随机游走的。

    赫斯特指数可以通过以下步骤计算:

  10. 将时间序列划分为不同的子序列,每个子序列长度为n。
  11. 计算每个子序列的均值。
  12. 计算每个子序列中每个数据点与均值的偏差的平方和。
  13. 将所有子序列的偏差平方和加起来,并除以总的偏差平方和。
  14. 将步骤4得到的结果取自然对数。
  15. 计算不同子序列长度下的结果,通过拟合直线来估计赫斯特指数。

    赫斯特指数可以用来评估交易策略的有效性。如果一个交易策略的赫斯特指数大于0.5,说明该策略具有长期趋势性,适合用于追涨杀跌;如果赫斯特指数小于0.5,说明该策略具有长期震荡性,适合用于高抛低吸。

  16. 总结

    本文讨论了量化交易中一个关键概念——均值回归,以及如何进行平稳性检验来识别具有均值回归特性的时间序列。文章介绍了奥恩斯坦-乌伦贝克过程和其在离散设置中的数学表示。此外,文章还介绍了增强Dickey-Fuller(ADF)测试,这是一种用于检验时间序列平稳性的统计检验方法。文章提到,ADF测试可以用于判断一个时间序列是否具有均值回归特性,并且适合应用一些统计模型,如ARIMA模型。 总的来说,对于量化交易工具中的均值回归策略,需要通过平稳性检验来确定具有均值回归特性的时间序列,并选择适当的统计模型进行分析和预测。

评论

用户头像
2023-04-22 09:15:31

这个好,算法大哥在分享点

评论