logit回归模型的参数估计过程_Logistic 回归模型的参数估计为什么不能采用最小二乘法?...

Logistic回归模型的参数估计通常采用迭代重加权最小二乘法(IRLS),而非经典最小二乘法,因为其误差无法直接量化。经典线性回归模型和Logistic回归模型在误差处理和模型结构上存在差异,Logistic模型通过logit函数模拟概率。IRLS方法允许处理离散的0和1残差,与极大似然估计相结合解决参数估计问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计狗来总结一下前面各个楼主的回答,先甩答案:

logistic回归模型的参数估计问题,是可以用最小二乘方法的思想进行求解的,但和经典的(或者说用在经典线性回归的参数估计问题)最小二乘法不同,是用的是“迭代重加权最小二乘法”(IRLS, Iteratively Reweighted Least Squares)。本质上不能使用经典的最小二乘法的原因在于,logistic回归模型的参数估计问题不能“方便地”定义“误差”或者“残差”。

下面是对经典线性回归问题和logistic回归问题的一些讨论。

(1)最小二乘/最小二乘法、最小二乘估计和极大似然估计的区别

最小二乘/最小二乘法可以看成是一种朴素的思想,即如果某种差异可以量化为实数,那么我们就可以(自然地)把这些差异的平方相加,将这个和作为一种目标函数。我记得我们高代有节课专门讲过“二乘”的矩阵形式,以及相关的“最小”这一优化目标的矩阵运算等等。

最二乘估计是指用最小二乘法对统计模型中的参数进行估计的估计方法。除了最小二乘估计,还有常用的极大似然估计、矩估计等参数估计的方法。对经典线性回归模型的参数估计来说,最小二乘估计和极大似然估计的结果是等价的,换句话说,对于其他模型,这种等价性就可能不成立。对于logistic回归模型来说,极大似然估计是没有解析解(closed form solution)的。

最小二乘估计和极大似然估计的不同在于优化的目标函数不同。最小二乘估计因为是用的最小二乘法,目标函数就是前面提到的那种“自然地”对“误差”或者“残差”的处理方式(这里“误差”和“残差”之所以加引号,是因为我们为了理解方便赋予了操作对象“某种差异”实际的意义);极大似然估计的目标函数是似然函数。可见,前者的目标函数依赖于我们对“误差”的选取,而后者依赖于数据的具体概率分布。最小二乘估计有很多良好的性质,这些性质是不依赖于具体概率分布的,仅需要满足Gauss-Markov假设即可。

(2)经典线性回归模型和logistic回归模型的区别

经典线性回归模型常用的形式是

equation?tex=y%3D%5Ctextbf%7BX%7D%5Cbeta%2B%5Cepsilon(*),

其中

equation?tex=%5Cepsilon服从0均值

equation?tex=%5Csigma%5E2的正态分布(或者更一般的,服从Gauss-Markov假设:0均值、等方差、不相关,即不一定是正态的);

logistic回归模型常用的形式是

equation?tex=%5Crm%7BPr%7D%28Y%3Dy%29%3D%5Cpi%5Ey%281-%5Cpi%29%5E%7B1-y%7D,

equation?tex=%5Crm+%7Blogit%7D%28%5Cpi%29%3D%5Ctextbf%7BX%7D%5Cbeta

(**)

如果只看这两种表示方式,可能会觉得这两个模型差别很大,比如说,logistic模型(**)怎么没有误差项呢?

equation?tex=y在(*)里面是服从有2个参数的正态分布

equation?tex=N%28%5Cmu%2C%5Csigma%5E2%29,在(**)里面是服从1个参数的伯努利分布

equation?tex=Bernoulli+%28p%29,为什么

equation?tex=%5Ctextbf%7BX%7D%5Cbeta在(**)中模拟了全部的未知参数,而在(*)中只模拟了一个参数

equation?tex=%5Cmu

实际上,logistic模型可以看成是

equation?tex=%5Ctextbf%7BX%7D%5Cbeta加上一个logistic 误差项,即

equation?tex=y%3D1%2C%5Ctextbf%7BX%7D%5Cbeta%2B%5Cepsilon%3E0

equation?tex=y%3D0%2C+%5Ctextbf%7BX%7D%5Cbeta%2B%5Cepsilon+%5Cleq0

其中

equation?tex=%5Cepsilon服从标准的logistic分布。这样,logistic模型就有一个潜变量的表达形式:

equation?tex=z%3D%5Ctextbf%7BX%7D%5Cbeta%2B%5Cepsilon,

equation?tex=y%3Df%28z%29

这里的潜变量连接函数

equation?tex=f%28%29具体说就是大于零取1,其他情况取0。这样来说,(*)和(**)都可以写成有误差项的表示。

另一方面,从条件期望的表示来看,

模型(*)可以写成:

equation?tex=%5Cmathbb%7BE%7D+%28Y%3Dy+%7C+%5Ctextbf%7BX%7D%29%3D%5Cmu,

equation?tex=%5Ctextbf%7BX%7D%5Cbeta%3Dg%28%5Cmu%29%3D%5Cmu

模型(**)可以写成:

equation?tex=%5Cmathbb%7BE%7D+%28Y%3Dy+%7C+%5Ctextbf%7BX%7D%29%3D%5Cpi,

equation?tex=%5Ctextbf%7BX%7D%5Cbeta%3Dh%28%5Cpi%29%3D%5Crm%7Blogit%7D%28%5Cpi%29%3D%5Clog%28%5Cfrac%7B%5Cpi%7D%7B1-%5Cpi%7D%29

可见两个模型分别靠一个函数

equation?tex=g%2Ch

equation?tex=%5Ctextbf%7BX%7D%5Cbeta和参数相连接,只是

equation?tex=g具体来说是identity函数,

equation?tex=h

是logit函数。这类模型都可以统一到广义线性回归模型GLM里面。

最后再点一下题,经典的最小二乘法可以处理比较方便写出“残差”的模型的参数估计,比如(*)中的“残差”是连续的实数,因为

equation?tex=%5Ctextbf%7BX%7D%5Cbeta是模拟的“均值”;而在(**)中的“残差”是离散的0和1,因为

equation?tex=%5Ctextbf%7BX%7D%5Cbeta模拟的是产生这些0和1的“概率”。但是如果换成极大似然估计,这些差异都可以统一起来,用极大化似然函数的方法进行求解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值