对数几率回归-白红宇

对数几率回归

阅读量：4147 次

发布时间：2019-05-25

本文共 1221 字，大约阅读时间需要 4 分钟。

本文损失函数部分内容参考：http://www.cnblogs.com/fionacai/p/5865480.html

目的：

利用线性回归时，输出的是实值，但要做的是分类任务该怎么办，答案就是线性模型的广义线性回归，即找到一个单调可微的函数将分类任务的真实标记和线性回归的预测值联系起来。

如是二分类任务，其输出标记为 $y=\left \{ 0,1 \right \}$ ,而线性回归的预测值 $z=\mathbf{w}^{T}\mathbf{x}+b$ 为实值，我们需将实值 $z$ 转为0/1值，我们必然想到单位阶跃函数（unit-step function），若 $z$ 大于0就判为正例，小于0则判为反例，预测值为临界值为0则可任意判别。但是，单位阶跃函数不连续，因此找到近似单位阶跃函数的“替代函数”，因此我们采用对数几率函数（logistic function）:

$y=\frac{1}{1+e^{-z}}$ （1）

该函数又叫作Sigmoid 函数。

方法：

将 $z=\mathbf{w}^{T}\mathbf{x}+b$ 代入公式（1），则可得到 $y=\frac{1}{1+e^{-(\mathbf{w}^{T}\mathbf{x}+b)}}$ ，该式可变化为 $ln\frac{y}{1-y}=\mathbf{w}^{T}\mathbf{x}+b$ (2)，若将 $y$ 视为样本 $\mathbf{x}$ 作为正例的可能性，则 $1-y$ 是其反例可能性，两者的比值：

$\frac{y}{1-y}$

称为“几率”（odds），反映了 $\mathbf{x}$ 作为正例的相对可能性。对几率取对数则得到对数几率（log odds） $ln\frac{y}{1-y}$ 。

由此可以看出，实际上我们是用线性回归模型的预测结果去逼近真实标记的对数几率，因此该模型成为“对数几率

回归”（logistic regression）。需要注意的是，虽然名字为回归，其实是一种分类学习方法。

得到表达式后，接下来要做的就是如何得到 $\mathbf{w}$ 和 $b$ 。我们将 $y$ 视为类后验概率估计 $p(y=1|\mathbf{x})$ ，则表达式（2）可以

表达为：

$ln\frac{p(y=1|\mathbf{x})}{p(y=0|\mathbf{x})}=\mathbf{w}^{T}\mathbf{x}+b$ (3)

显然有

$p(y=1|\mathbf{x})=\frac{e^{\mathbf{w}^{T}\mathbf{x}+b}}{1+e^{\mathbf{w}^{T}\mathbf{x}+b}}$ (4)

$p(y=0|\mathbf{x})=\frac{1}{1+e^{\mathbf{w}^{T}\mathbf{x}+b}}$ (5)

因此，我们可以通过“极大似然法”（maximum likelihood function）估计 $\mathbf{w}$ 和 $b$ 。对数几率回归模型的最大化“对数

似然”

（6）

即令每个样本属于其真实标记的概率越大越好，为便于讨论，令

则 $\boldsymbol{\mathbf{w}}^{T}\boldsymbol{\mathbf{x}}+b$ 可简写为 $\mathbf{\Theta }^{T}\mathbf{x}^{*}$ ，则（下式中的 $h_{\Theta }(x)$ 为sigmoid函数，因为利用极大似然推到较为麻烦，因此这里直接利

用损失函数，损失函数是利用极大似然准则函数推导的，，具体的推导求解过程可参见博客

另一种较为好理解的方式是，如果Y=1，你胆敢给出一个h(x)很小的概率比

如0.01，那么损失函数就会变得很大：）

此时的损失函数变成了凸函数，Theta的求解，就是梯度下降法（Gradient Descent,GD）求最小值，此时加入的正则化项，是解决过拟合问题。

（过拟合问题：如果我们的模型有非常多的特征，模型很复杂，模型对原始数据的拟合效果很好，但是丧失一般性，对新的待预测变量预测

效果很差。怎么解决呢？限制参数，损失函数加上关于theta的限制，即如果theta太多太大，则就给予惩罚。L2正则化。）

则参数的利用GD进行迭代求最优值为