方差(Variance)是衡量一组数据分散程度的统计量。在统计学中,当我们计算样本方差时,通常会除以 ( n-1 ) 而不是 ( n ),这里的 ( n ) 是样本的大小。
这是因为当我们计算样本方差时,我们假设样本是从一个更大的总体中抽取的,并且我们想要估计总体的方差。如果我们直接除以 ( n ),那么我们实际上是在计算样本的平均偏差的平方,这会导致估计的方差比实际的总体方差要小。
使用 ( n-1 ) 而不是 ( n ) 来除的原因如下:
1. 无偏估计:使用 ( n-1 ) 作为分母可以确保方差估计是无偏的,即平均估计的方差等于实际的总体方差。这是因为 ( n-1 ) 是样本大小减去一个自由度,这个自由度对应于样本均值的一个约束条件。
2. 自由度:当我们从总体中抽取样本时,样本均值已经给出了一部分信息,这减少了样本中的自由度。因此,我们用 ( n-1 ) 来表示自由度,以反映样本中未被样本均值所占据的独立数据点的数量。
3. 精确性:使用 ( n-1 ) 可以使得估计的方差更接近真实的总体方差,尤其是在样本量较小的情况下。
简而言之,方差除以 ( n-1 ) 而不是 ( n ) 是为了得到一个无偏的总体方差估计,并考虑到样本均值所提供的信息减少了样本的自由度。这种修正后的方差估计被称为样本方差的无偏估计。