大似然估计与最小二乘估计的区别
标签(空格分隔): 概率论与数理统计

最小二乘估计
对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。

设Q表示平方误差,YiYi表示估计值,Y^iY^i表示观测值,即Q=∑ni=1(Yi−Y^i)2Q=∑i=1n(Yi−Y^i)2
最大似然估计
对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。

显然,最大似然估计需要已知这个概率分布函数,一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计与最小二乘估计是等价的,也就是估计的结果是相同的。 
最大似然估计原理: 
1. 当给定样本x1,x2,...,xnx1,x2,...,xn时,定义似然函数为L(θ)=f(x1,x2,...,xn;θ)L(θ)=f(x1,x2,...,xn;θ); 
2. L(θ)L(θ)看做是θθ的函数,最大似然估计就是用使L(θ)L(θ)达到最大值的θ^θ^去估计θθ,这时称θ^θ^为θθ的最大似然估计;

MLE的步骤: 
1. 由总体分布导出样本的联合概率函数(或联合密度); 
2. 把样本联合概率函数的自变量看成是已知常数,而把θθ看做是自变量,得到似然函数L(θ)L(θ); 
3. 求似然函数的最大值(常常取对数,然后求驻点); 
4. 用样本值带入得到参数的最大似然估计。

例题
设一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?

LSE
设使用LSE估计,出现人头的概率为θθ, 则出现字的概率为1−θ1−θ。 
已知观测量为:(观测到的)出现人头的概率为11001100, (观测到的)出现字的概率为9910099100,则由最小二乘估计: 
Q(θ)=argminθ∑1001(θ−θ^)2 =argminθ(1100−θ)2+[99100−(1−θ)]2∗99Q(θ)=argminθ∑1100(θ−θ^)2 =argminθ(1100−θ)2+[99100−(1−θ)]2∗99 
令∂Q(θ)∂θ=0∂Q(θ)∂θ=0,解得θ=1100θ=1100;

ML
设使用ML估计,所以x服从伯努利分布,x∼B(朝上,θ)x∼B(朝上,θ), 
则概率密度函数为: 
P(x|θ)={θ,1−θ,if x 人头朝上if x 字朝上
P(x|θ)={θ,if x 人头朝上1−θ,if x 字朝上

则连续100次试验的似然函数为: 
P(x1,x2,..x100|θ)=C1100θ1∗(1−θ)99=100∗θ1∗(1−θ)99P(x1,x2,..x100|θ)=C1001θ1∗(1−θ)99=100∗θ1∗(1−θ)99 
最大化似然函数,则θθ至少为驻点,对似然函数取对数并求偏导: 
lnP(x1,x2,..x100|θ)=ln100+lnθ+99ln(1−θ)ln⁡P(x1,x2,..x100|θ)=ln⁡100+ln⁡θ+99ln⁡(1−θ) 
对θθ求偏导为0,得到: 
∂lnP(x1,x2,..x100|θ)∂θ=1θ−991−θ=0∂ln⁡P(x1,x2,..x100|θ)∂θ=1θ−991−θ=0, 解得θ=1100.θ=1100.
两者虽然得到的估计值是一样的,但是原理完全不同,要对他们的推导过程非常清楚。
--------------------- 

12-16 14:24