机器学习-白板推导 4.1 线性分类

1. 从线性回归到线性分类

线性回归的特性及将线性回归转为线性分类的办法

线性回归模型可以写作 $f(w, b) = w^Tx + b$ 。其线性体现在三个方面：

属性线性： $f(w, b)$ 关于 $x$ 是线性的
全局线性：指 $w^Tx + b$ 是一个线性组合，然后输出得到 $f(w, b)$
系数线性：指 $f(w, b$ 关于 $w^T$ 也是线性的

如果将某一种线性改为非线性就可以得到一种非线性模型。对应有：

将属性改为非线性：可以用特征转换(多项式回归)，如 $a_1x_1^2 + a_2x_2^2 + \cdots$
将全局线性改为非线性：加入激活函数，让输出变成非线性，比如logistic 分类，就变成了线性分类
将系数线性改为非线性：系数会改变，比如神经网络，通过反向传播改变权重。

而线性回归还有全局性和数据未加工的特性：

全局性：指线性回归是在整个特征空间上学习的，并没有将特征空间进行划分，然后在每个特征上学习。
数据未加工：线性回归直接在给定数据上进行学习而没有对数据进行处理,如PCA，流形等。

将全局性打破，即不根据所有点的情况回归，而是将数据分为一个个小的空间，对每个子空间进行回归，如决策树模型。

总结：

$\begin{align} \text {线性回归} \left\{\begin{array}{l} 1. 线性 \stackrel{转换为非线性} \longrightarrow\left\{\begin{array}{l} 1. 属性非线性：特征转换(多项式回归)\\ 2. 全局非线性: 线性分类(激活函数是非线性)\\ 3. 系数非线性: 神经网络，感知机 \\ \end{array}\right.\\ \text {2.全局性 }\stackrel{转换为非线性}\longrightarrow 决策树\\ \text {3. 数据未加工 }\stackrel{转换为非线性}\longrightarrow PCA，流形 \end{array}\right. \end{align}$

线性分类分类：

$\text { 线性分类 }\left\{\begin{array}{l} \text { 硬分类 }\left\{\begin{array}{l} \text { 线性判别分析:Fisher } \\ \text { 感知机: }\text {perception } \end{array}\right. \\ \text { 软分类 }\left\{\begin{array}{l} \text { 概率生成模型: 高斯判别分析(连续),} \ \ \text{Naive Bayes}(离散) \\ \text { 概率判别模型: logistic regression} \end{array}\right. \end{array}\right.$

2. 感知机

概述

假设有一可被线性分类的样本集 $\left \{ (x_i, y_i) \right \}_{i=1}^N$ ,其中 $x_i \in \mathbb{R}^p, y_i \in \{-1, +1 \}$ .那么感知机算法可以使用SGD来在特征空间 $\mathbb{R}^p$ 中找到一个超平面 $w^Tx+b=0$ 可以将其分为两类，其中 $w\in \mathbb{R}^p$ ,是这个超平面的法向量。

感知机算法是错误驱动的算法，可以理解为不断调整这个超平面来使得误分类错误点越少。

具体算法

对于所有的样本数据：

在 $y_i = + 1$ 的样本点中，有 $w^T \cdot x + b > 0$
在 $y_i = - 1$ 的样本点中，有 $w^T \cdot x + b < 0$

可直接改写为 $y_i(w^T \cdot x + b)>0$ 代表正确分类，反之就是错误分类。

而特征空间 $\mathbb{R}^p$ 中任意一点 $x_0$ 到超平面的距离为：

$\frac{1}{\lVert w\rVert} \lvert w ^T\cdot x_0 +b \rvert \tag{1}$

所有误分类点到超平面总距离为：

$\sum_{x_i \in M}\frac{1}{\lVert w\rVert} \lvert w \cdot x_i +b \rvert= -\frac{1}{\lVert w\rVert} \sum_{x_i \in M} y_i( w^T \cdot x_i +b ) \tag{2}$

不考虑 $\frac{1}{\lVert w\rVert}$ ，就可以得到感知机损失函数：

$L(w, b) = -\sum_{x_i \in M} y_i( w^T \cdot x_i +b ) \tag{3}$

学习算法

对损失函数求 $w, b$ 梯度得：

$\begin{aligned} \frac{\partial L(w, b)}{\partial w} &=-\sum_{x_{i} \in M} y_{i} x_{i} \\ \frac{\partial L(w, b)}{\partial b} &=-\sum_{x_{i} \in M} y_{i} \end{aligned} \tag{4}$

实际训练步骤如下( $0\lt \eta \le 1$ )：[李航——统计学习方法P39]

选取初值 $w_0, b_0$
在训练集中选取数据 $(x_i, y_i)$
如果 $y_i(wx_i + b) \le 0$ ，则更新参数：
$w \leftarrow w+ \eta y_i w_i \\ b \leftarrow b+ \eta y_i \tag{5}$
转至2，直到训练集中没有误分类点

3. 线性判别分析

算法思想

假设数据集为 $\left \{ (x_i, y_i) \right \}_{i=1}^N$ , 其中 $x_i \in \mathbb{R}^p$ ， $y_i\in\{+1,-1\}$ ，记 $\{y=+1\}$ 为 $C_1$ 类， $\{y=-1\}$ 为 $C_2$ 类。那么， $X_{c_1}$ 为 $\left\{ x_i|y_i=+1 \right\}$ ， $X_{c_2}$ 为 $\left\{ x_i|y_i=-1 \right\}$ , $|X_{c_1}|=N_1,\ |X_{c_2}|=N_2$ 且 $N_1+N_2=N$ 。

LDA (Linear Discriminant Analysis) 的想法是：设法将数据样本投影到一条直线上，使得同类别样本的投影点尽可能接近、异类样本投影点尽可能远。总结来说就是，类内小、类间大，具体是指类内方差之和小，类间的均值之差大。具体图示如下：(出自：周志华——《机器学习》”西瓜书“ P60)

算法推导

若将数据投影到直线 $w$ 上，则样本点投影到该直线后值 $z_i$ 为 $w^Tx_i$ 。样本均值和方差按以下公式计算：

$\begin{align} \bar{z}&=\frac{1}{N}\sum_{i=1}^{N}z_i = \frac{1}{N}\sum_{i=1}^{N}w^Tx_i \\\\ S_z&=\frac{1}{N}\sum_{i=1}^N(z_i-\bar{z})(z_i-\bar{z})^T \end{align} \tag{6}$

那么对于第一类分类点 $X_{c_1}$ 和第二类分类点 $X_{c_2}$ 可以表述为：

$\begin{align} C_1:\qquad \bar{z_1}= \frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i \qquad S_1 =\frac{1}{N_1}\sum_{i=1}^N(z_i-\bar{z_1})(z_i-\bar{z_1})^T \\ C_2:\qquad \bar{z_2}= \frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i \qquad S_2 =\frac{1}{N_2}\sum_{i=1}^N(z_i-\bar{z_2})(z_i-\bar{z_2})^T \\ \end{align}\tag{7}$

那么类间的距离我们可以定义为：$(\bar{z_1}-\bar{z_2})^2$,
类内的距离被我们定义为$S_1+S_2$。那么我们的目标函数Target Function $\mathcal{J}(w)$，可以被定义为:

$\mathcal{J}(w) = \frac{(\bar{z_1}-\bar{z_2})^2}{S_1+S_2}$

根据目标函数要使得分子越小越好，分母越大越好。即类间距离越大越好，类内的距离越小越好。

分子化简：

$\begin{equation} \begin{split} (\bar{z_1}-\bar{z_2})^2 = & \left( \frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i - \frac{1}{N_2}\sum_{i=1}^{N_2}w^Tx_i \right)^2 \\ = & \left( w^T(\frac{1}{N_1}\sum_{i=1}^{N_1}x_i - \frac{1}{N_2}\sum_{i=1}^{N_2}x_i ) \right)^2 \\ = & \left( w^T(\bar{X}_{c_1} - \bar{X}_{c_2}) \right)^2 \\ = & w^T(\bar{X}_{c_1} - \bar{X}_{c_2})(\bar{X}_{c_1} - \bar{X}_{c_2})^Tw \\ \end{split} \end{equation}$

分母化简：

$\begin{equation} \begin{split} S_1 = & \frac{1}{N_1}\sum_{i=1}^N(z_i-\bar{z}_1)(z_i-\bar{z}_1)^T \\ = & \frac{1}{N_1}\sum_{i=1}^N(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)^T \\ = & w^T\frac{1}{N_1}\sum_{i=1}^N(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)(x_i-\frac{1}{N_1}\sum_{i=1}^{N_1}x_i)^Tw \\ = & w^TS_{c_1}w \\ \end{split} \end{equation}$

同理可得，

$S_2= w^TS_{c_2}w$

所以, 分母化简为 $S_1+S_2=w^T(S_{c_1}+S_{c_2})w$ 。代入目标函数得：

$\mathcal{J}(w)=\frac{w^T(\bar{X}_{c_1} - \bar{X}_{c_2})(\bar{X}_{c_1} - \bar{X}_{c_2})^Tw}{w^T(S_{c_1}+S_{c_2})w}$

定义类间散度矩阵为(within-class scatter matrix)：

$S_w = (\bar{X}_{c_1} - \bar{X}_{c_2})(\bar{X}_{c_1} - \bar{X}_{c_2})^T$

类内散度矩阵为(between-class scatter matrix)：

$S_w = (S_{c_1}+S_{c_2})$

于是，目标函数改写为:

$\mathcal{J}(w)=\frac{w^TS_bw}{w^TS_ww}$

为了方便求导，我们令 $\mathcal{J}(w)=(w^TS_bw)(w^TS_ww)^{-1}$ 。

$\begin{equation} \begin{split} \frac{\partial \mathcal{J}(w)}{\partial w} = 2S_bw(w^TS_ww)^{-1} + & (-1)(w^TS_bw)(w^TS_ww)^{-2}(2)S_ww = 0 \\\\ \Longrightarrow S_bw(w^TS_ww)^{-1} = & (w^TS_bw)(w^TS_ww)^{-2}S_ww\\ \end{split} \end{equation}$

显然，$w$的维度是$p\times 1$，$w^T$的维度是$1 \times p$，$S_w$的维度是$p\times p$，所以，$w^TS_ww$是一个实数，同理可得，$w^TS_ww$是一个实数所以，

$\begin{equation} \begin{split} S_bw = & (w^TS_bw)(w^TS_ww)^{-1}S_ww \\\\ \Longrightarrow S_bw = & \frac{(w^TS_bw)}{(w^TS_ww)}S_ww \end{split} \end{equation}$

我们只要方向，大小由于超平面可以放缩，可以不关注。可以忽略一些实数，

$w = \frac{(w^TS_bw)}{(w^TS_ww)}S_b^{-1}S_ww \propto S_b^{-1}S_ww$

而代入 $S_w$ 有：

$S_ww = (\bar{X}_{c_1} - \bar{X}_{c_2})(\bar{X}_{c_1} - \bar{X}_{c_2})^Tw$

因为 $(\bar{X}_{c_1} - \bar{X}_{c_2})^Tw$ 也是个实数，可以忽略。所以 $w$ 最后正比于：

$S_b^{-1}S_ww \propto S_w^{-1}(\bar{X}_{c_1} - \bar{X}_{c_2})$

那么，我们最后求得 $w$ 方向为 $S_w^{-1}(\bar{X}_{c_1} - \bar{X}_{c_2})$ 。如果对角矩阵 $S_w^{-1}$ 是各项同性，那么其正比于单位矩阵， $S_w^{-1} \propto I$ ,则有 $w\propto (\bar{X}_{c_1} - \bar{X}_{c_2})$ 。

实际分类中很少用LDA了，但是其在早期是非常有代表性的算法，可以参考其思想。

3. 逻辑回归

逻辑回归的想法是，我们将线性回归得到的值经过一个函数映射后能不能得到一个在 $[0, 1]$ 的值，这样可以将其看作一个概率值。而sigmoid恰好有这个性质，其定义为：

$\sigma(x) = \frac{1}{1+e^{-x}}$

如图所示：

算法推导：

假设数据集为： $\left \{ (x_i, y_i) \right \}_{i=1}^N ,\ x_i \in \mathbb{R}^p, y_i \in {0, 1}$ 。

记：

$\begin{align} p_1&=P(y=1|x)=\sigma(w^Tx)=\frac{1}{1+e^{-w^Tx}} \\ p_0&=P(y=0|x)=1-p(y=1|x)=1-\sigma(w^Tx) =\frac{e^{-w^Tx}}{1+e^{-w^Tx}} \end{align}$

简化后记为：

$P(y|x) = p_1^y \cdot p_0^{1-y}$

只要对于所有样本的概率最大就是最优参数，用MLE求解最优 $\hat w$ :

$\begin{align} \hat{w} =&\underset{w}{\text{argmax }} \log P(y|x) \\\ = & \underset{w}{\text{argmax }}\sum _{i=1}^N \log P(y_i|x_i) \\ = & \underset{w}{\text{argmax }} \sum _{i=1}^N\log (p_1^{y_i} \cdot p_0^{1-y_i}) \\ = & \underset{w}{\text{argmax }} \sum _{i=1}^N (y_i\log p_1 + (1-y_i) \log p_0) \\ \end{align}$

最后的 $y_i\log p_1 + (1-y_i) \log p_0$ 也可以根据交叉熵公式写出，不过要加个负号。

现在只要求解 $L(w) = \sum _{i=1}^N (y_i\log p_1 + (1-y_i) \log p_0)$ 最大值。

其中， $p_1, p_0 = 1-p_1$ 表达式如上，并且对sigmoid求导有 $\sigma^\prime = \sigma(1-\sigma)$ ，因此有：

$\begin{align} \frac{\partial L(w)}{\partial w} =& \sum _{i=1}^N (y_i \frac{1}{p_1}p_1(1-p_1)x_i + (1-y_i)\frac{1}{1-p_1}(-1)(1-p_1)x_i)\\ =& \sum _{i=1}^N (y_i(1-p_1)x_i - (1-y_i)p_1x_i)\\ =& \sum _{i=1}^N (y_ix_i - p_1x_i)\\ =& \sum _{i=1}^N (y_i - p_1)x_i \end{align}$

令其为0时，可求出 $\hat w$ 。但是由于概率是非线性的，该式无法实际求解，实际上使用SGD来求 $L(w)$ 最大值。当最优解为 $\hat w$ 时，

$\begin{align} P(y=1|x)&=\frac{1}{1+e^{- \hat w^Tx}} \\ P(y=0|x)&=\frac{e^{-\hat w^Tx}}{1+e^{-\hat w^Tx}} \end{align}$

其中,

$\frac{\partial L}{\partial w}=-\sum_{i=1}^n (y_i-f(x_i))x_i^* \\ w:=w-\eta \frac{\partial L}{\partial w}$

代码实现：引用自[zhulei227] 02线性模型逻辑回归.ipynb

class LogisticRegression(object):
    def __init__(self, fit_intercept=True, solver='sgd', if_standard=True, l1_ratio=None, l2_ratio=None, epochs=10,
                 eta=None, batch_size=16):

        self.w = None
        self.fit_intercept = fit_intercept #截距
        self.solver = solver #求解器
        self.if_standard = if_standard #标准化标志
        if if_standard:
            self.feature_mean = None
            self.feature_std = None
        self.epochs = epochs
        self.eta = eta
        self.batch_size = batch_size
        self.l1_ratio = l1_ratio
        self.l2_ratio = l2_ratio
        # 注册sign函数
        self.sign_func = np.vectorize(utils.sign)
        # 记录losses
        self.losses = []

    def init_params(self, n_features):
        """
        初始化参数 w
        """
        self.w = np.random.random(size=(n_features, 1))

    def _fit_closed_form_solution(self, x, y):
        """
        直接求闭式解
        """
        self._fit_sgd(x, y)

    def _fit_sgd(self, x, y):
        """
        随机梯度下降求解
        """
        x_y = np.c_[x, y]
        count = 0
        for _ in range(self.epochs):
            np.random.shuffle(x_y)
            for index in range(x_y.shape[0] // self.batch_size):
                count += 1
                # 取每批数据
                batch_x_y = x_y[self.batch_size * index:self.batch_size * (index + 1)]
                batch_x = batch_x_y[:, :-1]
                batch_y = batch_x_y[:, -1:]

                dw = -1 * (batch_y - utils.sigmoid(batch_x.dot(self.w))).T.dot(batch_x) / self.batch_size
                dw = dw.T

                # 添加l1和l2的部分
                dw_reg = np.zeros(shape=(x.shape[1] - 1, 1))
                if self.l1_ratio is not None:
                    dw_reg += self.l1_ratio * self.sign_func(self.w[:-1]) / self.batch_size
                if self.l2_ratio is not None:
                    dw_reg += 2 * self.l2_ratio * self.w[:-1] / self.batch_size
                dw_reg = np.concatenate([dw_reg, np.asarray([[0]])], axis=0)

                dw += dw_reg
                self.w = self.w - self.eta * dw

            # 计算losses
            cost = -1 * np.sum(
                np.multiply(y, np.log(utils.sigmoid(x.dot(self.w)))) + np.multiply(1 - y, np.log(
                    1 - utils.sigmoid(x.dot(self.w)))))
            self.losses.append(cost)

    def fit(self, x, y):
        """
        :param x: ndarray格式数据: m x n
        :param y: ndarray格式数据: m x 1
        :return:
        """
        y = y.reshape(x.shape[0], 1)
        # 是否归一化feature
        if self.if_standard:
            self.feature_mean = np.mean(x, axis=0)
            self.feature_std = np.std(x, axis=0) + 1e-8
            x = (x - self.feature_mean) / self.feature_std
        # 是否训练bias
        if self.fit_intercept:
            x = np.c_[x, np.ones_like(y)]
        # 初始化参数
        self.init_params(x.shape[1])
        # 更新eta
        if self.eta is None:
            self.eta = self.batch_size / np.sqrt(x.shape[0])

        if self.solver == 'closed_form':
            self._fit_closed_form_solution(x, y)
        elif self.solver == 'sgd':
            self._fit_sgd(x, y)

    def get_params(self):
        """
        输出原始的系数
        :return: w,b
        """
        if self.fit_intercept:
            w = self.w[:-1]
            b = self.w[-1]
        else:
            w = self.w
            b = 0
        if self.if_standard:
            w = w / self.feature_std.reshape(-1, 1)
            b = b - w.T.dot(self.feature_mean.reshape(-1, 1))
        return w.reshape(-1), b

    def predict_proba(self, x):
        """
        预测为y=1的概率
        :param x:ndarray格式数据: m x n
        :return: m x 1
        """
        if self.if_standard:
            x = (x - self.feature_mean) / self.feature_std
        if self.fit_intercept:
            x = np.c_[x, np.ones(x.shape[0])]
        return utils.sigmoid(x.dot(self.w))

    def predict(self, x):
        """
        预测类别，默认大于0.5的为1，小于0.5的为0
        :param x:
        :return:
        """
        proba = self.predict_proba(x)
        return (proba > 0.5).astype(int)

    def plot_decision_boundary(self, x, y):
        """
        绘制前两个维度的决策边界
        :param x:
        :param y:
        :return:
        """
        y = y.reshape(-1)
        weights, bias = self.get_params()
        w1 = weights[0]
        w2 = weights[1]
        bias = bias[0][0]
        x1 = np.arange(np.min(x), np.max(x), 0.1)
        x2 = -w1 / w2 * x1 - bias / w2
        plt.scatter(x[:, 0], x[:, 1], c=y, s=50)
        plt.plot(x1, x2, 'r')
        plt.show()

    def plot_losses(self):
        plt.plot(range(0, len(self.losses)), self.losses)
        plt.show()