机器学习中的统计学入门指南

用户头像数学算法大哥
2023-03-26 发布
  1. 什么是统计学习?

    在探讨统计学习的理论之前,我们最好先考虑一个量化金融情境的例子,以说明这些技术的应用。假设有一只量化基金想要长期预测标准普尔500指数,该基金已成功收集了与该指数成分公司相关的大量基本数据,例如市盈率或账面价值。那么该基金应该如何利用这些数据来预测指数并创建一个交易工具呢?统计学习就是解决这个问题的一种方法。 在更加定量的意义上,我们试图基于一组预测因素或假设两者之间存在关系的特征,对结果或反应的行为进行建模。在上述例子中,股票市场指数值是反映,与构成公司相关的基本数据则是预测因素。 如果我们定义一个长度为p的向量X= (x1,.....,xp),其中Xi为反应Y的特征值,那表征这个关系的模型为Y = f(X)+ε,其中f是预测器的未知函数,ε(epsilon)表示误差,不依赖于预测值,平均值为零。 因此,我们可以回到股市指数示例,即Y代表标准普尔500指数的价值,而Xi指数的组成部分代表个别基本因素的价值。统计学习的目标是根据观测数据估计f的形式,并评估这些估计的准确性。

  2. 预测和推断

    统计学习普遍涉及两个任务:预测和推断。预测是指获得特征/预测值信息简单,但很难(或不可能)获得响应值的情况。

1)预测 预测任务涉及基于新观测到的预测器X来预测响应Y。假设模型关系已经确定,则可以使用f的估计来预测响应: 在预测的场景中,f的确切函数形式通常不重要,只要估计的响应接近真实响应即可。因此,对于预测问题,采用不同的f估计方法将导致不同精度的Y估计值。与f的差异相关的误差被称为可减少误差,但总会存在一定程度的不可减少误差,因为我们最初的问题规范中包含一个ε误差项。该误差项包括未测量因素,这些因素可能会影响响应变量Y。

2)推论

在统计学习中,推论通常需要确定X和Y之间的确切关系,因此需要明确它们之间的形式。推论可能需要确定重要的预测因素或个体预测因素与响应之间的关系。此外,还需要考虑这种关系是线性还是非线性的。线性模型更容易解释,但可能导致较差的可预测性。非线性模型通常具有更好的预测性能,但解释性较差。因此,在可预测性和可解释性之间需要进行权衡。
  1. 参数化和非参数化模型

    在统计学习中,通常可以构造一组形式为{(X1,Y1), (X2,Y2),......,(Xn,Yn)}的预测器和响应元组,其中指的是第j个预测器向量。这种形式的数据集被称为训练数据,因为它将用于训练特定的统计学习方法,以生成f hat。为了实际估计f,我们需要找到f hat,并使其在特定的预测器X下提供对特定Y的合理近似。有两大类统计模型可以帮助我们实现这一点,它们被称为参数化模型和非参数化模型。

1)参数化模型

参数化方法的定义特征是它们需要对f的形式进行规范或假设。这是一个建模决策。第一个选择是考虑线性模型还是非线性模型。让我们先考虑线性模型的简单情况。这种模型将问题从估计某个未知函数(其维度为p)减少到估计长度为p+1的系数向量β,其中:

现在,我们已经指定了f的(线性)函数形式,需要对其进行训练。在这个例子中,“训练”意味着找到beta的估计值,使其能够提供对训练数据中Y的合理近似。 其中向量X包含一个单位分量,从而具有p+1维内积。 在线性设置中,我们可以使用普通最小二乘法(OLS)等算法来确定系数,但也可以使用其他方法。虽然估计β比拟合f要简单得多,但选择参数线性方法可能导致估计f hat无法准确反映f的真实形式,因为模型不够灵活。这可能会导致较差的估计,因为模型不够灵活。一个可能的解决办法是添加更多的参数,为f hat选择替代形式。然而,如果模型变得过于灵活,可能会导致过度拟合。

2)非参数化模型

另一种方法是考虑f hat的形式。非参数模型可能适合更广泛的f可能形式,因此更加灵活。不幸的是,非参数模型需要大量的观测数据点,通常比参数设置中的观测数据要多得多。此外,如上所述,如果不小心处理,非参数方法也容易过度拟合。
虽然非参数模型似乎是量化交易模型的自然选择,因为有大量(历史)数据可用于应用模型,但这些方法并不总是最佳的。尽管对于股市数据中的非线性建模增加的灵活性很有吸引力,但由于金融时间序列中的信噪比较差,因此很容易过度拟合数据。因此,更好的选择可能是具有一定灵活性的模型的“中间地带”。
  1. 有监督学习和无监督学习

    有监督学习和无监督学习的区别在于是否存在标签或响应变量。有监督学习的目标是学习一个函数来预测输出变量,给定输入变量和相应的标签。而无监督学习的目标是从数据中找到一些结构,例如集群或降维,而没有明确的标签或响应变量。 在金融领域,有监督学习方法通常用于预测股票价格或其他金融指标,例如利率或汇率。无监督学习方法则通常用于降维或集群分析,以便发现数据中的隐藏结构或模式。 需要注意的是,有时候这两种方法会结合使用,例如在半监督学习中,利用部分有标签的数据进行监督学习,然后将这些知识应用于未标记的数据。

  2. 总结

    本文讨论了统计机器学习的几个重要概念,包括特征选择、模型参数化与非参数化、有监督与无监督学习。特征选择是指从数据集中选择最具预测性的特征来训练模型,以提高模型的预测能力和泛化性能。模型参数化方法需要对函数形式做出假设,并通过训练得到系数向量的估计,这种方法适用于线性模型,但可能会导致过度拟合。非参数化方法可以适合更广泛的函数形式,更加灵活,但需要更多的观测数据,并且容易过度拟合。有监督学习要求每个预测向量都有对应的响应变量,而无监督学习则没有对应的响应变量。无监督学习常用于集群分析,可以帮助识别数据中可能不容易确定的未预料的关系。在金融领域中,这些概念都有广泛的应用,例如在量化交易中选择特征、训练模型和评估数据聚类等方面。

评论