近来读一篇Paper,研究者利用假设检验来验证两个不同消费者是否一起逛商场。

同时最近在看 G.H.韦恩堡的《数理统计初级教程》,借着这个机会,所以把假设检验梳理归纳了一下,从测量的角度。个人统计测量水平有限,错漏之处,若有大神指点,不胜感激。

一切的基础,高斯分布

所有知道数理统计的人,恐怕没有不知道高斯分布(正态分布)的,所以这里直接引维基的介绍:

大部分的统计问题,测量问题,包括像最小二乘的平差,都是建立在正态分布的基础上。对于很多非高斯分布, 也有通过某种转化变成到高斯分布来分析。

中心极限定理

 维基的解释为:

但《数理统计初级教程》的说法恐怕更好懂:

同理根据正态分布的特性,把该定义拓展到对于每个样本的均值构成的新分布,也是渐进正态分布的。 而且该新分布的均值与原总体的均值相同,而该新分布的标准差与原总体的标准差之比为根号N.

一个尺子测量的例子

问题的提出:
 
如果有一把尺子,用来测量一段距离,大部分人都知道,多测几次取均值是可取的。如果有粗差知识(outlier),可能会进行粗差剔除后取均值。类似于裁判打分去掉最高分,去掉一个最低分。
 
那么这个取均值的背后,事实上是基于观测数据仅含有偶然误差,也就是说尺子本身没有系统误差的情况下的最优估计。那么如何判断一把尺子到底有没有系统误差呢?
 
自然而然,我们会想到需要一个基准(或者说一个真实值已知的距离,这里叫他基线)然后通过测量该值来对尺子进行检验。具体一点,假如有一根基线长为100cm, 利用一把尺子测量了该基线多次,结果为99,100,101, 101,测量均值u=100.3,那么这个0.3到底是偶然误差(也就说这个尺子可以认为没系统误差,可以拿去测量其他的东西),还是具有系统误差(需要纠偏,比如说每个测量值都减去0.3)呢?
直观上,0.3/100很小,尺子应该没误差吧。 但是,直觉对科学很重要,仅靠直觉不去量化验证又是不科学的。
 
那么统计学的做法是什么呢?
 
首先,光靠100.3这个值我们其实很难保证说这个尺子就一定没问题,因为你不能通过举正例来证明你的观点。但是话说回来,如果利用反证法,也就说我们假如能够证明没误差的尺子测出来100.3的概率非常小,那么这个尺子几乎是一定有问题,需要再校正的。这其实就是假设检验最基础的intuition.
 
而这个intuition放在正态分布里面,反例是什么确定的呢? 反例就是那些只有极小概率才会发生的值,对应到正态分布概率密度钟型曲线靠近两边的那些取值。 也就是说,假如你告诉我说你这个x~N(100,1),然后我取一个观测值x,结果这个x竟然是很小概率(p<5%)才会发生的值,那么我就不得不怀疑你这个假设的正确性了。对应到尺子的例子,那就是这个正态分布的准确性了(基线长度)或者就得怀疑这个观测值x的取值方法(尺子有系统误差)是不是正确了!!!也就是否认你这个x~N(100, 1)的假设了!
 
这是因为正态分布的特征主要由期望和方差决定:
   1. 这个均值分布的总体期望我们知道,假如方差也知道,那么分布就完全确定了
   3. 所以在这个均值方差都知道的分布里,我们可以计算某个概率区间的上下限(比如说可以知道落在X1-X2的概率是95%)。
   4. 那么如果一个样本在X1-X2中,那么我们没理由认为这个尺子有问题(虽然它还是可能有问题,但是我们无法判断它 只能接受它没问题)。而如果落在那5%的区间里(x<X1或者x>X2),我们认为你在逗我吧这么小的概率你也搞到,那肯定是你自己有问题(尺子有系统误差),也就是拒绝接受尺子没问题这个设定,你回去再校正吧。
 
再举个例子:你假设你手上的硬币是均匀的,然后你投掷了100次,结果发现90次都是正面,那你敢相信这个假设是对的吗?所以这也牵涉出来,假设检验的目的,在于否定原假设,原假设否定不了我们才接受备选假设。注意是接受了假设,而不是证明了假设。什么意思呢,比如100次投掷里50次正面,符合我们的假设,但是依然没人敢保证这个假设是严格正确的,只能说从统计数据来看没办法证明它是错的,那就暂时认为它是对的吧。
 
在这个intuition明白之后,假设检验的流程也明白了:
1.  确定原假设H0(比如尺子没问题,硬币均匀), 和备选假设H1(尺子有问题,硬币不均匀)
2. 确定我们在什么时候会拒绝原假设,通常是0.05 也就是说假如统计数据竟然落在那5%里面,我要拒绝原假设
3. 在原假设的基础上去探寻该统计数据可能出现的概率,看齐是否小于5%
 
那么这个intuition如何拓展开呢?
1.  假设可能不是直接针对于分布本身 (统计量的选取,字样的函数,其分布应该已知比如t分布)
2. 如果抽样的数据本身不是正态分布呢? ---> 中心极限定理
3. 如果主体的方差和期望并不已知的情况下如何判断概率呢?
     这个时候就是利用t-分布这个统计量了:值得注意的是,当子样容量n>=200 用样本方差代替总体方差被认为是严密的,>30时候认为用样本方差代替总体方差进行检验的结果可信(u检验和t检验一致)。
 
中心极限定理: 为什么我们假设尺子没问题的话多测测量的均值满足正态分布?
   首先,这把尺子测量的4次结果,相当于统计中的从总体中(无数把尺子对该基线进行测量的数据总体)抽出来来的一个样本,不难想象,假如总体样本有无限把尺子进行测量,就算尺子本身有系统误差也会有不同的系统误差相互抵消,也就是说总体的期望值为100, 这就是中心极限定理:从大容量的同一总体中抽取等容量的样本,则每一个样本的均值构成的分布趋近于正态分布且期望为总体的期望。
 
写到这里突然觉得,还是先看《数理统计初级教程》第十,第十一章后,细看《误差理论与测量平差基础》第十一章来的清楚,作罢作罢。
 

参考:

05-15 06:06