十大机器学习算法-逻辑回归（LR）_十大算法模型 lr-CSDN博客

逻辑回归（LR）是一种经典的分类方法，常用于二分类问题。本文介绍了其基本思想，包括模型参数估计的对数似然函数及梯度下降求解过程，并探讨了特征处理、正则化、类别不平衡等问题。此外，还提供了代码实现链接及参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

逻辑斯蒂回归（logistic regression，LR）是统计学习中经典的分类方法，属于对数线性模型。是目前使用最多的机器学习分类方法，在推荐系统中的应用非常广泛。

基本思想

假定只考虑二分类问题，随机变量X取值为实数，随机变量Y取值为1或0。二项逻辑斯蒂回归模型是如下的条件概率分布：
$\frac{exp(w\cdot x +b)}{1+exp(w\cdot x +b)} \\ P(Y=0|x) = \frac{1}{1+exp(w\cdot x +b)}$
其中 $x\in \mathbb{R}^n$ 是输入， $Y\in \{0,1\}$ 是输出， $w\in \mathbb{R}^n$ 和 $b\in \mathbb{R}$ 是参数。 $w$ 称为权值向量， $b$ 称为偏置， $w\cdot x$ 为 $w$ 和 $b$ 的内积。

逻辑斯蒂回归模型的特点：一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生概率是 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ ，该事件的对数几率或logit函数是 ${\rm logit}(p) = {\rm log}\frac{p}{1-p}$
对LR而言，有
${\rm log} \frac{P(Y=1)}{1-P(Y=1)} = w\cdot x +b$
在逻辑斯蒂回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数。

模型参数估计

设：
$\pi(x),\ P(Y=0|x) = 1-\pi(x)$
似然函数必然满足二项分布为：
$\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
负对数似然函数为：（交叉熵作为损失函数）
$-\sum_{i=1}^{N}[y_i\ {\rm log}\ \pi(x_i) + (1-y_i)\ {\rm log}\ (1-\pi(x_i))] \\ = -\sum_{i=1}^{N}[y_i\ {\rm log}\frac{\pi(x_i)}{1-\pi(x_i)} + {\rm log}(1-\pi(x_i))] \\ = -\sum_{i=1}^{N}[y_i\ (w\cdot x_i) - {\rm log}(1+ exp(w \cdot x_i))]$
通常采用随机梯度下降法对 $L (w)$ 求极小值，得到 $w$ 的估计值。

对参数 $w$ 求导得到
$\frac{\partial L(w)}{\partial w_j} = -\sum_{i=1}^{N} [x_i^{(j)}y_i - \frac{x_i^{(j)} exp(w\cdot x_i)}{1 + exp(w\cdot x_i)} ]\\ = -\sum_{i=1}^{N} [x_i^{(j)}(y_i - \frac{ exp(w\cdot x_i)}{1 + exp(w\cdot x_i)}) ]\\ = \sum_{i=1}^{N} [x_i^{(j)}(g(w\cdot x_i) - y_i)]$
其中 $\frac{1}{1+exp(-x)}$ ， $x_i^{(j)}$ 表示第i个样本的第j维输入特征。

参数更新公式：
$w_j^{t+1} = w^t - \eta \ \sum_{i=1}^{N} [x_i^{(j)}(g(w\cdot x_i) - y_i )$
其中 $\eta$ 是学习率。

代码实现

Github：https://github.com/zhengjingwei/statistical-learning-method/tree/master/LogisticRegression

class Logistic_Regression(object):

    def __init__(self):
        self.learning_step = 0.0001 # 学习率
        self.max_iteration = 5000 # 分类正确上界，当分类正确的次数超过上界时，认为已训练好，退出训练

    def train(self,features, labels):
        self.w = [0.0] * (len(features[0]) + 1) # 初始化模型参数 某位元素为偏移b

        correct_count = 0 # 分类正确的次数

        while correct_count < self.max_iteration:

            # 随机选取数据(xi,yi)
            index = random.randint(0, len(labels) - 1)
            x = list(features[index])
            x.append(1.0)
            y = labels[index]

            if y == self.predict_(x): # 分类正确的次数加1,并跳过下面的步骤
                correct_count += 1
                continue

            wx = sum([self.w[i] * x[i] for i in range(len(self.w))])
            while wx>700: # 控制运算结果越界
                wx/=2
            exp_wx = math.exp(wx)

            for i in range(len(self.w)):
                self.w[i] -= self.learning_step * \
                    (-y * x[i] + float(x[i] * exp_wx) / float(1 + exp_wx)) # 梯度上升

    def predict_(self,x):
        wx = sum([self.w[j] * x[j] for j in range(len(self.w))])
        while wx>700: # 控制运算结果越界
            wx/=2
        exp_wx = math.exp(wx)

        predict1 = exp_wx / (1 + exp_wx)
        predict0 = 1 / (1 + exp_wx)

        if predict1 > predict0:
            return 1
        else:
            return 0


    def predict(self,features):
        labels = []

        for feature in features:
            x = list(feature)
            x.append(1)
            labels.append(self.predict_(x))

        return labels

常见问题

2-6-1 逻辑回归相比于线性回归有什么异同？

不同点：

逻辑回归处理的是分类问题，线性回归处理的是回归问题；
逻辑回归中认为y是因变量，即逻辑回归的因变量是离散的，线性回归的因变量是连续的。

相同点：

二者都使用了极大似然估计来对训练样本进行建模
求解超参数过程中，都可以使用梯度下降的方法

联系：

如果把一个事件的几率（odds）定义为该事件发生的概率与不发生概率的比值 $\frac{p}{1-p}$ ，那么逻辑回归可以看做是对于"y=1|x"这一事件的对数几率的线性回归
${\rm log} \frac{p}{1-p} = \theta^{T}x ，其中\ p = P(y=1|x)$

2-6-2 逻辑回归和广义线性模型有何关系？

可以看做广义线性模型在因变量y服从二元分布时的一个特殊情况

2-6-3 逻辑回归如何处理多标签分类？

如果一个样本只对应于一个标签（多分类问题）：
假设每个样本属于不同标签的概率服从几何分布，使用softmax regression进行分类：
$h_\theta = \left[ \begin{matrix} p(y=1|x;\theta)\\ p(y=2|x;\theta) \\ \vdots \\ p(y=1|x;\theta) \end{matrix} \right] = \frac{1}{\sum_{j=1}^{k} e^{\theta^T x}} \left[ \begin{matrix} e^{\theta_1^T x}\\ e^{\theta_2^T x} \\ \vdots \\ e^{\theta_k^T x} \end{matrix} \right] \tag{3}$
其中 $\theta_1,\theta_2 \dots,\theta_k \in \mathbb{R}^n$