在进行数据分析时,我们经常需要处理多个数值数据集。Excel提供了强大的统计功能,可以帮助我们快速地计算这些数据的各种统计量。其中,标准差是描述数据分布的一个重要指标,它衡量了数据点与平均值之间的离散程度。
总体标准差与样本标准差
在Excel中,当我们使用STDEV.S或STDEV.P函数时,默认情况下会计算的是样本标准差。如果我们想要计算总体标准差,只需将函数改为使用STDEVP.S或STDEVP.P即可。这两组函数的主要区别在于它们是否考虑了整个人口当中的所有可能观察值。
样本标准差
样本标准差(sample standard deviation)是一种基于不完整但随机抽样的群体信息来估计总体参数的一种方法。在大多数实际应用中,我们无法访问整个人口,而只能获得一个有限规模的小部分代表性观测值,这就是为什么我们通常使用样本来估计总体参数的情况。当你使用Excel中的任何一种求和公式时,如=AVERAGE()、=VAR.S()、=VAR.P()等,你都默认是在计算的是一个样本。
总体標準差
然而,有时候你可能确实知道或者假设你已经拥有了全局的所有观测值。在这种情况下,你就可以用它来直接计算出所谓的“真实”的全局或“理论上的”平均误差,即使这样做并不那么常见,因为这通常意味着你的数量已经足够大,以至于能够很好地代表这个特定群体。但如果你的目的就是为了理解整个人口,那么就应该考虑到全部可能性,并且因此需要准确地反映这些概率。
Excel中的选择:STDEV.S vs STDEVP.S
当你想知道如何选择正确的公式时,最简单的事情就是查看你的输入是否包含了完整的人口。你可以通过检查输入列表是否包括所有可能存在于该群落中的每一项来确定这一点。如果没有,那么你正在处理一个未知大小的人口——即便是无限大——并且这意味着你不能保证一定覆盖到了所有潜在成员,因此应该使用变量形式(例如 =A1:A10.STDEV(), 甚至更广泛如 =Sheet1!B:B.STDEV(), 如果列B包含了一切)。
如果则已知您拥有全部人群,那么您可以安全地利用具有"P"后缀(如 =A1:A1000.STDEVP())表示Population Standard Deviation 的公式,因为这里涉及到的只是那些被测试对象之内发生的事务而非仅仅是一个从其内部选取出的子集。这样的运算过程更加精确,但它也更昂贵,对性能影响较大。此外,它们对于巨大的数字集合来说尤其有用,因为它们允许对非常庞大的项目进行预期分析,而不会因为错误导致偏离真正结果。
应用场景
Sample:
在市场研究中,你收集了一小批消费者的购买行为记录。
你要评估学生考试成绩的一个班级。
你监控公司某产品销售期间短时间内的一系列销售额报告。
Population:
全球气温记录。
一家银行对过去十年的利润进行分析。
国家统计局发布全国失业率调查结果,其中包括每个地区以及国家层面的综合数据。
结论:
了解不同场景下的正确应用对于执行有效决策至关重要。在许多情况下,虽然人们倾向于认为他们手头上的数据涵盖了整个目标领域,但事实上,他们只有一小部分相关资料,所以他们其实是在尝试推断出一些关于整个人类的问题。而另一方面,如果他们真的掌握到了整个人类资料的话,那么他们将能够以几乎完美无缺的地步得到最终答案。这正是为什么excel提供给我们的两个不同的方法,使得用户能够根据自己的具体需求选择合适的手段去解决问题。