600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > pca主成分分析_PCA主成分分析(中)

pca主成分分析_PCA主成分分析(中)

时间:2023-10-07 00:00:20

相关推荐

pca主成分分析_PCA主成分分析(中)

矩阵——MATRIX,很容易让人们想到那部著名的科幻电影——《骇客帝国》。事实上,我们又何尝不是真的生活在MATRIX中。机器学习处理的大多数数据,都是以“矩阵”形式存储的。矩阵是向量的组合,而一个向量代表一组数据,数据又是多维度的。比如每个人的都具有身高、体重、长相、性情等多个维度的信息数据,而这些多维度信息数据就构成了一个人的信息向量。多个人的信息组合在一起,构成了一个信息矩阵。我们也把它称为样本。然而事实中我们遇到的信息维度往往是非常庞大的,所以就需要摒弃次要信息,保留主要信息。那么我们如何根据现有样本数据,决定该保留身高、体重、长相、性情中的哪些特征信息呢?其中身高和体重是关联比较大的,而长相、性情两方面特征与其他特征几乎无关联。从直觉上来讲,数据之间关联的程度越大,越容易“牵一发而动全身”,这种统一的“联动”能够,从另一个角度,用较少的信息说明较重要的问题。所谓降维,就是把这些“联动”的高维信息尽量压缩在一个低维信息内,我们叫它“主成分”。而协方差矩阵,代表了多维信息之间相互关联程度。我们从信息之间的关联程度出发,压缩关联程度高的信息并尽量保持原特征(去关联),摒弃不相关的信息(去冗余)。

举个极端的例子,我们制作出这样一组数据:身高和体重存在简单的线性关系(正比关系),而相貌不受身高、体重的任何影响。如下图所示

那么现在,我们计算取得上述信息矩阵A的其协方差矩阵C,如下图所示

不出意料,体重和相貌、身高和相貌之间的协方差值为0。再根据这个这个协方差矩阵C分解特征值,得出以下两个矩阵,一个为包含特征值的对角矩阵D,一个为特征值对应的特征向量所形成的矩阵X

协方差矩阵的特征值所构成的对角矩阵D:

所对应的特征向量所组成的特征矩阵X:

从上面两张图可以看出,特征值从大到小的顺序为:

77.8542895>>0.12487716>>0

显然协方差矩阵C为对称矩阵,所以根据线性代数的相关知识,矩阵C及其特征矩阵X以及特征值对角矩阵D之间,有如下关系:

我们看出特征值类似于一种“能量”,能量越大的特征值,对矩阵的“贡献”相对越大。特征值为0或几乎为0的那部分乘积项,可以被忽略掉。

在此我们只保留最大的特征值所对应的特征向量Y,这个向量Y作为压缩数据的方向

通过向量Y,用以下方式将原来的3维数据压缩为1维数据

P就是我们压缩后的信息,它映射一个唯一的主成分P1

下图显示了压缩前后样本数据和主成分的变化关系

lh代表身高数据

lw代表体重数据

la代表长相数据

lp1就是压缩后的主成分上的投影数据

从图中可以看出:

1.压缩的后主成分p1和几乎保留了身高h的变化规律,

2.体重w与h为正比关系。故此,w,h贡献给了主成分p1,

3.长相a作为冗余数据被过滤掉。

那么为什么我们选择协方差矩阵最大特征值所对应的特征向量,就刚好能够使我们抽取原信息矩阵中的主成分呢?下一篇我们将阐述PCA降维的原理和依据。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。