在进行多元统计分析时,数据分析师常常会遇到一个名为多重共线性的问题。这种现象发生在两个或更多变量之间存在显著的相关性时,这些变量通常是通过某种方式关联在一起,比如它们都与同一个第三方变量有关。在这种情况下,即使每个单独的变量与因果关系中的响应变量有显著关系,但当同时考虑所有这些相关的预测器时,结果可能会变得模糊不清。
为了更好地理解这个概念,让我们先来回顾一下多元统计分析是什么,以及它是如何工作的。多元统计分析是一种用于探索和解释两个或更多变量间相互作用影响的一个工具。当研究者想要了解几个不同的预测因素如何共同作用于一个特定的目标(即响应)变量时,他们就会使用这项技术。
例如,如果我们想知道三个不同类型的营销活动—电视广告、印刷广告和社交媒体推广—对于销售额产生了怎样的影响,我们就可以使用多元统计方法来确定每一种营销活动独立对销售额产生了多少贡献,同时也考察它们是否以某种方式相互作用。这一过程涉及构建模型,其中包括响应变量(销售额)以及各自预测因素(电视广告、印刷广告和社交媒体推广)。
然而,当我们面临共线性问题时,就需要进一步探讨其原因并采取措施解决这一难题。在本文中,我们将详细介绍什么是共线性,并探讨它如何干扰我们的模型。此外,我们还将讨论一些可以用来解决共线性的技术,包括主成分回归、偏最小二乘法等。
多重共线性的定义
简而言之,两组观察值被认为具有非随机差异且高度相关,如果它们之间没有明确可解释的一致模式。如果这两组观察值代表着相同的问题,那么他们应该表现出高水平的一致性,而不是无意义的差异。因此,在进行任何形式的数据分析之前,最好首先检查数据是否存在这些隐藏模式,以避免误导结论。
共线性对模型造成影响
当你看到两个或者更多看似独立但实际上高度相关的事物,你可能会感到困惑,因为你不知道哪个真正起作用。你必须决定:要不要去除其中一个?如果这样做,对你的假设测试结果会有什么影响?
例如,在一次研究中,一名科学家发现,他所研究的小鼠体重与饮食习惯紧密相关。他注意到那些喜欢吃甜食的小鼠体重大大增加,这似乎表明糖分摄入导致体重增加。但是在进行进一步调查后,他发现甜味食物并不比其他类别更具能量密度,因此他开始怀疑“喜爱甜食”是否真的像看起来那样能够解释体重变化。他意识到,“喜爱甜食”可能只是另一种表示小鼠总能耗水平的手段,而且它实际上反映了许多其他潜在风险因素,如运动水平或基因倾向。
解决策略
虽然删除有问题的特征是一个简单且直接的问题,但这是不可接受的情况,因为这意味着忽视了重要信息来源。如果有足够数量这样的特征,它们彼此之间非常相似,有时候你甚至可以从一组特征中选择任意数目得到相同答案。这就是为什么您需要找到替代方案以处理这些复杂的情况。
主成分回归
主成分回归是一种特殊类型的心理距离法,用来消除强烈协方差,并创建新的、相互独立的人工特征。这使得机器学习算法能够更容易地学习基于新特征集上的输入数据。一旦完成这个步骤,你就可以安全地继续前进,不必担心过拟合或欠拟合的问题再次出现,因为你的新空间已经被设计为减少协方差,使得模型更加健壮且有效率。
偏最小二乘法
偏最小二乘法是一种特殊类型的心理距离方法,它试图找到最佳平移点,以最大化每个点关于中心轴的一般化卡尔曼滤波器效率。在这种情况下,每个点都是根据其位置在地球表面的平均速度计算出来的一个参考点。而中心轴则代表的是地球赤道带上的平均速度。通过这样做,可以最大限度地减少由于引力效应而产生的地球表面弯曲,从而提高估计精度并降低误差范围。此外,该方法还允许我们从原始坐标系转换到新的坐标系,使得后续处理变得更加容易和直观。