Lecture 10: More on the SVD in Machine Learning including matrix completion

1. SVD in machine learning

  1. Dimensionality Reduction(PCA)
  2. Principal Components Regression
  3. Least Squares
  4. Matrix Completion
  5. PageRank

2. Least Squares & SVD

理解最小二乘

理解最小二乘续

跟前面提到的一样有:

假设$n \ge p$ & $X$有$p$个线性无关的列,那么

情形1:

如果$X= U \Sigma V^T$,其中$U : n\times n ,\ \ \Sigma: n \times p ,\ \ V^T: p \times p$, 那么

由下面两式,

可得:

继续化简式2,[利用式5,把 看作 ]

pseudo-inverse:

并且有上节课里提到的:

由式7得:

跟上节课一样:

情形2:

$p \ge n$, $X$ 有$n$个独立的行,

那么有无数解[ 无穷 个 满足 ].

Claim: $\hat w = V \Sigma^+ U^T$ has the smallest norm of any w $s.t: \ y = Xw$。我们从上面的$w$中挑出一个$\hat w$来使其有最小的范数,并且满足约束。

因为$X$是“瘦长型”矩阵,那么其伪逆为$\Sigma^+= \Sigma^T(\Sigma\Sigma^T)^{-1}$。

对于任意$w$要有$y = Xw$.我们想要得到

而,

回忆一下,

式11,变为:

我们现在只看中间项,它等价于, 利用 跟伪逆一样理由写成这样化简下 :

又因为 。只能是 .

所以式12等于:

3. Why is minimum norm good?

一些问题

Why can’t we set $\hat w = X^{-1}y$?

  • $X^{-1}$does not exist。

When $\hat w = (X^TX)^{-1}X^Ty$ vs $\hat w = X^T(XX^T)^{-1}y$?

  • $\hat w = (X^TX)^{-1}X^Ty$ : $n \ge p, \ X \ has \ p \ LI \ cols. $
  • $\hat w = X^T(XX^T)^{-1}y$ : $p \ge n, \ X \ has \ n \ LI \ rows. $

In both cases,

is good.

4. Matrix Completion

Matrix Completionimage-20201106225306125

$X \in \mathbb{R}^{n \times p}$,assume $rank(X) = r \leq min(n, p)$, we observe $X_ij \ for (i, j)\in \Omega$

stanford slides

5. Singular Value Thresholding

stanford讲义

论文