一、偏态

左右不对称即为偏态
口诀一:看长尾在哪边就是往哪偏
口诀二:峰左移,右偏态;峰右移,左偏态

我们为什么要去看数据的偏态?
1、更加全面的了解数据的分布,使用mode、median、mean三个指标来综合描述数据的分布。mode代表了样本中最多的样本的特性、median可以用于描述有一半的样本低于或高于某个值、mean用于描述样本的平均水平。对于明显左偏或者右偏的数据来说,使用中位数去描述数据状况比平均数更合理,因为平均数会受极值的影响。
2、左偏说明长尾在左边,左边有较多的极端数值。
3、许多算法要求样本服从正态分布,因此我们需要先观察数据的分布,如若不对称就要进行调整。

二、偏态系数SK

SK:Skewness

偏态系数绝对值值越大,偏斜程度越厉害。
SK< 0 左偏
SK> 0 右偏

SK以mean、mode之差与σ的比例来计算的,因此mean>mode,也就是右偏的时候,SK>0。

三、峰度kurtosis

正态分布的峰度K=3,均匀分布的峰度K=1.8。
除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。

kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

相关链接:

10-06 18:12