600字范文 > PCA SVD ZCA白化理论与实现

PCA SVD ZCA白化理论与实现

时间：2024-04-16 20:55:58

相关推荐

PCA SVD ZCA白化理论与实现

简介

在UFLDL中介绍了主成分分析这一块的知识，而且当时学机器学习的时候，老师是将PCA和SVD联系起来将的，同时UFLDL也讲到了使用PCA做数据白化whitening处理，这个词经常在论文里面看到。

国际惯例，参考博客：

UFLDL的PCA章节

PRML的第12.1 PCA章节

知乎深入理解PCA与SVD的关系

PCA and SVD explained with numpy

Relationship between SVD and PCA. How to use SVD to perform PCA?

百度百科正交投影

知乎正交投影

SVD（奇异值分解）小结

特征分解

协方差矩阵一定是满秩的吗？

PCA、ZCA白化

PCA理论

在PRML中给出了PCA的两种定义：

数据在低维线性空间上的正交投影，这个线性空间被称为主子空间，使得投影数据的方差被最大化平均投影代价最小的线性投影。其中平均投影代价是数据点与投影点之间的平均平方距离。

如下图就是将二维数据投影一维空间u1u_1u1中

上图中红色的二维数据点被正交投影到主子空间(紫色的线)，PCA的目的就是想让投影后的数据(绿色点)具有最大的方差。其中正交投影被神乎其神的说了一大堆理论，其实就是投影线垂直于投影面。

通常情况下，我们都是用第一个定义去理解PCA的，设每个样本都有D个属性，即D维向量，总共有N个样本。

第一步将数据投影到D维向量u1u_1u1上，一般来说我们设这个u1u_1u1是D维空间中的方向向量：

x^=u1Tx\hat{x}=u_1^Tx x^=u1Tx

第二步求投影方差

1N{u1Txn−u1Txˉ}2=u1TSu1\frac{1}{N}\{u_1^Tx_n-u_1^T\bar{x}\}^2=u_1^TSu_1 N1{u1Txn−u1Txˉ}2=u1TSu1

其中xˉ\bar{x}xˉ所有样本均值xˉ=1N∑n=1Nxn\bar{x}=\frac{1}{N}\sum_{n=1}^Nx_nxˉ=N1∑n=1Nxn，注意不是每个样本所有属性求均值。

其中SSS是原数据集的协方差矩阵：

S=1N∑n=1N(xn−xˉ)(xn−xˉ)TS=\frac{1}{N}\sum_{n=1}^N(x_n-\bar{x})(x_n-\bar{x})^T S=N1n=1∑N(xn−xˉ)(xn−xˉ)T

【注】协方差反映的是属性与属性之间的关系，而非样本与样本之间的关系。

第三步约束

上面我们经常约束u1u_1u1是方向向量，那么

u1Tu1=1u_1^Tu_1=1 u1Tu1=1

结合这个约束以及为了让方差最大化的目标，可以利用拉格朗日乘数法建立下式：

u1TSu1+λ1(1−u1Tu1)u_1^TSu_1+\lambda_1(1-u_1^Tu_1) u1TSu1+λ1(1−u1Tu1)

当上式导数为零时，驻点满足

Su1=λ1u1Su_1=\lambda_1u_1 Su1=λ1u1

很容易发现u1u_1u1一定是SSS的特征向量，同时也能发现当λ1\lambda_1λ1越大，方差越大。所以最大特征值对应的特征向量为第一主成分。同理就能利用特征分解的方法求解到第二、三、…主分量。

综上，可以得到PCA的一般步骤为：

整理原始矩阵Xn×mX_{n \times m}Xn×m ，代表n个样本，每个样本维度为m

求原始矩阵Xn×mX_{n \times m}Xn×m的协防差阵Sm×m=Cov(X)S_{m\times m}=Cov(X)Sm×m=Cov(X)

求解协防差阵的特征值和特征向量。

选取最大的K(人为给定)个特征值所对应的特征向量组成构成矩阵Wm×kW_{m\times k}Wm×k

直接进行矩阵计算，就得到了降维后的数据

Zn×k=Xn×mWm×kZ_{n\times k} = X_{n\times m }W_{m\times k } Zn×k=Xn×mWm×k

SVD 理论

一般来说实对称矩阵可以被分解为A=Q∑QTA=Q\sum Q^TA=Q∑QT的形式，其中QQQ为标准正交矩阵，∑\sum∑对角阵，对角阵上的元素λi\lambda_iλi是矩阵A的特征值，对应的特征向量是QiQ_iQi

那么如果矩阵AAA为非实对称矩阵的时候，有没有类似的

A=UΣVTA=U\Sigma V^T A=UΣVT

奇异值分解(singular value decomposition，SVD)做的就是这件事。在SVD的官方术语中,U是(n,n)(n,n)(n,n)维的方阵称为左奇异向量；Σ\SigmaΣ是(n,m)(n,m)(n,m)的对角阵，对角线上的元素称为奇异值；V是(m,m)(m,m)(m,m)维度的方阵称为右奇异向量，并且U和V均为单位正交矩阵，UUT=1UU^T=1UUT=1且VVT=1VV^T=1VVT=1

求解方法就是利用AATAA^TAAT与ATAA^TAATA都是对称阵的特性，得到：

AAT=UΣΣTUTATA=VΣTΣVTAA^T=U\Sigma \Sigma ^T U^T \\ A^TA=V\Sigma^T\Sigma V^T AAT=UΣΣTUTATA=VΣTΣVT

这样就能求解出U、Σ\SigmaΣ、V。

这篇文章里面有例子。

PCA和SVD的关系

摘自此处，通过协方差矩阵的求解方法建立联系：

在SVD中：

S=ATX=VΣUTUΣVT=VΣ2VT=VΣ2V−1S=A^TX =V\Sigma U^T U\Sigma V^T =V\Sigma ^2V^T =V\Sigma^2V^{-1} S=ATX=VΣUTUΣVT=VΣ2VT=VΣ2V−1

而在PCA中：

S=u1λ1u1−1S=u_1\lambda_1u_1^{-1} S=u1λ1u1−1

所以：

λ=Σ2u=V\lambda=\Sigma^2\\ u=V λ=Σ2u=V

这一点可以通过代码验证：

a=np.array([[1,5,7],[2,3,6],[5,9,3]])C = np.dot(a.T, a)eigen_vals,eigen_vecs = np.linalg.eig(C)u,sigma,v=np.linalg.svd(a,full_matrices=False,compute_uv=True)print(eigen_vals,sigma**2)'''[208.58666048 1.52969164 28.88364788] [208.58666048 28.88364788 1.52969164]'''eigen_vecs'''array([[-0.34088613, -0.85005392, -0.40150339],[-0.72034757, 0.51060491, -0.46944862],[-0.60406625, -0.12919347, 0.78639241]])'''v.T'''array([[-0.34088613, -0.40150339, -0.85005392],[-0.72034757, -0.46944862, 0.51060491],[-0.60406625, 0.78639241, -0.12919347]])'''

使用PCA对mnist数据集降维

其实在这里遇到一个问题：使用eig对手写数字数据集的协方差矩阵求解特征值时得到了复数特征值和特征向量，这一点暂时没弄明白，但是使用svd可以得到正常的特征值和特征向量。

sklearn中的pca

from sklearn.decomposition import PCApca = PCA(n_components=2)result = pca.fit_transform(data)

得到结果图

numpy手撕PCA

def PCA_numpy(X):#零均值化print(X.shape)X=X-X.mean(axis=0)## 使用特征值和特征向量#协方差矩阵#cov_X = np.cov(X,rowvar=0)#每一列一个特征#eig_val,eig_vec = np.linalg.eig(cov_X) #出现复数了##使用svdU,eig_val,eig_vec = np.linalg.svd(X)#选两个最大的idx = np.argsort(-eig_val)temp_M=[]for i in range(2):temp_M.append(eig_vec[idx[i]])temp_M = np.array(temp_M).Tresult = np.dot(X,temp_M)return result

同样得到结果值

这个图里面每个颜色代表手写数字数据集里面的0-9数字。