偏态和正态分布是统计学中描述数据分布形状的两个重要概念。
1. 偏态:
偏态是指数据分布的对称性程度。简单来说,就是数据分布是否呈现对称的钟形曲线。
正偏态:当数据分布的右尾(右侧)比左尾(左侧)长,或者右侧的峰值比左侧的峰值高时,称为正偏态。这意味着大多数数据值集中在分布的左侧,而右侧有较少的数据值,且这些值分布得较广。
负偏态:当数据分布的左尾(左侧)比右尾(右侧)长,或者左侧的峰值比右侧的峰值高时,称为负偏态。这意味着大多数数据值集中在分布的右侧,而左侧有较少的数据值,且这些值分布得较广。
正态分布:当数据分布既不偏左也不偏右,左右两侧的尾长和峰值高度大致相等时,称为正态分布。
2. 正态分布:
正态分布,也称为高斯分布,是一种在自然界和人类社会广泛存在的概率分布。它的形状呈钟形,左右对称,中间的峰值最高。
正态分布具有以下特征:
对称性:左右两侧的分布是对称的。
单峰性:只有一个峰值。
均值、中位数和众数相等。
在正态分布中,大约68%的数据值会落在均值的一个标准差范围内,约95%的数据值会落在均值的两个标准差范围内,约99.7%的数据值会落在均值的三个标准差范围内。
了解偏态和正态分布对于数据分析、统计推断和模型建立等方面具有重要意义。