在多元统计分析中,数据通常是由许多相关变量组成的,这些变量之间存在复杂的关系。然而,现实世界中的问题往往需要处理的是这些高维空间中的模式和结构,而人脑以及大多数数据处理工具都更擅长于处理低维空间。因此,在进行多元统计分析时,我们经常需要将高维数据转换为更容易理解和分析的低维表示。这就是所谓的“降维”或“特征提取”的过程。
1. 高维数据的问题
首先,让我们来讨论一下为什么我们需要对高维数据进行降维。在传统意义上,一个有n个特征(即每个样本点被描述为n个数字)的事务可以用二进制形式表示,每个特征是一个位。如果n非常大,那么存储这样的对象就变得不切实际,因为要表示一个单一事务,就必须使用足够数量的比特来编码所有可能值,即2^n bits。对于大部分应用来说,这是不经济且不必要的。
此外,大型数据库系统会因为它们管理的大量记录而变得缓慢。当你试图查询或者索引大量行时,你发现这个数据库很难快速地检索出信息。尽管现代硬件已经极其强大,但随着时间推移,计算机科学家们认识到为了速度而增加硬件性能不是最有效率的一种方法。相反,他们开始寻找解决方案以减少存储需求并提高查询效率,从而使得他们能够更快地访问和操作大量数据。
2. 降低成本与提升效率
通过采用一种称为“聚类”的技术,可以将具有相似属性的事务分组在一起,并根据其群体创建概括性模型。这使得整个集合看起来像是由几个代表性的事务构成,而不是每个事务都是独一无二的。此外,它还允许开发者创建简单、可重复执行且易于更新的事务生成器,以便当新事物出现时,可以迅速添加到已有的模型中。
另一种方式是使用称为主成分分析(PCA)的算法,该算法通过选择最佳方向沿着它投影原来的坐标轴,将原始坐标轴重新排序,使得第一个主成分包含了最大方差,同时第二个包含次大的方差依此类推直至最后一个主要成分含有最小方差。此后,对于任何给定的向量,只需考虑其两个主要方向上的投影,就可以准确地估计该向量在原始空间中的位置,从而减少了信息损失,并简化了后续操作。
3. 多元统计分析与降纬技术
由于我们的目的是探讨如何利用多元统计分析来帮助我们理解和解释这方面的情况,所以让我们专注于那些特别适合用于找到隐藏模式或结构以及预测未来的算法——例如回归、分类器等。在这些情况下,我们面临的一个挑战是识别哪些因素真正影响结果,以及其他因素对结果是否有显著影响。
a) 主要成分分析(PCA)
PCA是一种用于降噪、压缩、高级显示等目的的手段,它能保持关键信息同时尽可能减少冗余信息。在这种方法中,我们没有明确指定哪些变量应该保留下来,也没有明确指定哪些应该丢弃掉;相反,PCA基于协方差矩阵自动确定优选保留哪些变量,然后只保留那些贡献较大的前几项主成分,以便去除冗余并简化我们的观察集。
b) 线性判别函数(LDA)
线性判别函数是一种用于分类任务中的另一种降噪技巧,它假设不同类别来自不同的分布,并尝试找到能够区分不同类别最好的超平面。而这里面的超平面通常指的是一些重要特征之上的边界线,这里边界线意味着某一项目属于某一类还是另一类,是基于一些标准定义出来的一个概念框架,比如说,如果一个人拥有A、B两项技能,那他就属于C职业团队。但如果他的技能又包括D那他则属于E职业团队,这里面的A, B, C, D分别代表技能名称,而E则代表具体职业类型.
c) 局部敏感哈希(LSH)
LSH是一种近邻搜索算法,其核心思想是在有限长度的小表格中均匀地散列输入矢量。这意味着任何给定的输入矢量都映射到了相同大小的小表格上,因此总共只有那么多不同的输出。如果两个矢量映射到了相同的小表格上,则它们彼此距离最近。如果它们映射到了不同的小表格上,则它们彼此距离远离。一旦确定了初始散列函数之后,还可以进一步调整它以提供更多关于矢量间距离范围内最近邻搜索的一致答案,一般来说这涉及到建立很多版本散列函数然后检查是否至少有一条版本返回同样的答案作为判断标准之一。