Lecture 2 Vectors and Matrices in Machine learning

Lecture 2 机器学习中的向量和矩阵

1. 线性模型

t5ajyXsZi7zUKx9

我们可以理解$X_i \in \mathbb{R}^p$为$p$个一系列的数值特征，一般写作一个列向量。

${X}_{i}=\left[\begin{array}{c} X_{i 1} \\ x_{i 2} \\ \vdots \\ X_{i p} \end{array}\right] \in \mathbb{R}^{p}\tag{1}$

从训练数据，对于新的新样本$X_0$学习如何预测标签(或者目标值)$\hat{y}$。

例如线性模型，

$\begin{array}{l} \hat{y}=w_{1} x_{01}+w_{2} x_{02}+\cdots w_{p} x_{0 p} \\ w_{1}, \ldots, w_{p}=\text { weights to be learned from data } \end{array}\tag{2}$

using training data to find $W$, such that} $\hat{y_i}\approx y_i, \ for \ i=1, \ldots, n $ . want $L(\hat{y_i}, y_i) $smallest

权重向量weights vector：

$\underline W=\left[\begin{array}{c} \mathbb{w}_{1} \\ \mathbb{w}_{2} \\ \vdots \\ \mathbb{w}_{p} \end{array}\right] \in \mathbb{R}^{p}\tag{3}$

特征向量feature vector：

$\underline X=\left[\begin{array}{c} \mathbb{w}_{o 1} \\ \mathbb{w}_{o 2} \\ \vdots \\ \mathbb{w}_{o p} \end{array}\right] \in \mathbb{R}^{p}\tag{4}$

我们的模型就可以写作内积的形式。

例子1 线性模型

hn9C8TiKjH4M6av

竖轴是第二个特征维度，横轴是第一个特征维度。蓝色直线代表所有在

$<X, W>=-2\times x_1+ x_2=0$

的点。

我们也可以看作： $\hat y_i = x_{i1}w_1+ x_{i2}w_2 + w_0$ 。我们不防把第一个元素 $x_1$ 看作1，那么就有：

$\underline{x}_{0}=\left[\begin{array}{c} 1 \\ x_{01} \\ x_{02} \\ \vdots \\ x_{0 p} \end{array}\right] , \underline{w}=\left[\begin{array}{c} w_{0} \\ w_{1} \\ w_{2} \\ \vdots \\ w_{p} \end{array}\right] \in \mathbb{R}^{p+1} \tag{5}$

也可以像前面一样写成内积形式。

接下来就是最小化损失函数。

线性模型的矩阵表示矩阵表示

TOANckqixvmW8E5

$\begin{aligned} X&= \left[\begin{array}{ll} - & x_{1}^{\top}&- \\ - & x_{2}^{\top}&- \\ - & x_{n}^{\top}&- \end{array}\right] \\ &=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & & \\ x_{n 1} & x_{n 2} & \cdots & x_{n p} \end{array}\right] \end{aligned} \tag{6}$

例如$x{21}$表示第二个训练样本的第1个特征。$x{12}$表示第一个训练样本的第二个特征。

$X^T= \begin{bmatrix} x_{11}& x_{21}& \cdots & x_{n1} \\ x_{12}& x_{22}& \cdots & x_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ x_{1p}& x_{2p}& \cdots & x_{np} \end{bmatrix} \tag{7}$

$X^T$变成$p$行$n$ 列。

式6，矩阵$X$的第$i $行row代表：第$i$训练样本的$p$个特征。

矩阵$X$的第$j $列col代表：所有 $n$个训练样本的第$j$个特征。

这就是不同角度看待$X$矩阵。

计算$Xw$意味着：作$X$每一行和$w$作内积然后把结果用向量$\hat y$保存下来。

教授Rebecca Willett非常详细讲了矩阵行列之间的变化关系。体会矩阵shape的变化，这对代码中间的debug非常有用.