最近在做CAE+AI的工作,会涉及到大量的数据分析,统计相关的工作,借这个机会,把数据统计的知识写一下。想象一个场景:有两个篮球队,A队和B队。他们的平均身高都是188厘米。如果只看平均值,你会认为两队身高差不多。但当你看到队员时,你发现:
哪个队的身高更“稳定”?哪个队的数据更“分散”?显然,尽管平均值相同,但B队身高的波动性或离散程度远大于A队。而标准差,就是用来精确量化这种波动性或离散程度的“尺子”。
标准差的正式定义是:各数据点偏离其平均值的平均距离的一种衡量。
我们来拆解这个定义:
为什么不能直接用“距离的平均值”?因为数据点有的比均值大(正偏差),有的比均值小(负偏差),直接相加正负会抵消。所以,统计学家想出了一个巧妙的办法来解决这个问题。
计算总体标准差(σ)的公式如下:σ = √[ Σ(xi - μ)² / N ]
别怕,我们通过一个超简单的例子来一步步理解。假设我们有一个迷你数据集:[2, 4, 6, 8]
第1步:计算平均值(μ)
第2步:计算每个数据点与平均值的偏差
第3步:将每个偏差平方(为了消除负号)
第4步:计算这些平方偏差的平均值(这被称为“方差”)
第5步:对方差开平方根(将单位还原回来)
所以,这个数据集的平均数是5,标准差是2.24。 这意味着,数据点通常偏离平均值大约2.24个单位。
标准差本身的一个数值意义不大,它的威力在于比较。
实例应用:
在上面的计算中,我们用的是总体标准差(公式除以N)。但在实际研究中,我们往往只能拿到一部分数据(样本),用来推断总体情况。
这时,我们使用样本标准差,公式中除以的是 (n - 1)
:s = √[ Σ(xi - x̄)² / (n - 1) ]
为什么要减1?这涉及到“自由度”的概念。简单理解,这是为了对总体标准差进行无偏估计。用样本均值(x̄)代替总体均值(μ)会引入一点不确定性,除以 (n-1)
相当于做了一个小小的放大调整,使得这个估计更准确。在数据量很大时(n很大),两者结果相差无几。
实用提示: 在计算器或Excel中,通常会提供两个函数:
STDEV.P( )
用于计算总体标准差。STDEV.S( )
用于计算样本标准差。 当你不确定时,使用 STDEV.S( )
通常是更保险的选择。今天介绍了标准差这个强大的工具,有以下几个要点: