唯见江心秋月白、

唯见江心秋月白、

目录

主成分分析(PCA)是最常用的线性降维方法

设有m条n维数据,PCA的一般步骤如下


主成分分析(机器学习)-LMLPHP

 

主成分分析(PCA)是最常用的线性降维方法


它的目标是通过某种线性投影,将高维的数据映射到低维的空间中

并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度

尽可能如果把所有的点都映射到一起,那么几乎所有的区分信息都丢失了,而如果映射后方差尽可能的大,那么数据点则会分散开来,特征更加明显。

PCA是丢失原始数据信息最少的一种线性降维方法,最接近原始数据

PCA算法目标是求出样本数据的协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后,能尽可能表征原始的数据。协方差矩阵可以用散布矩阵代替,协方差矩阵乘以(n-1)就是散布矩阵,n为样本的数量。协方差矩阵和散布矩阵都是对称矩阵,主对角线是各个随机变量(各个维度)的方差。

设有mn维数据,PCA的一般步骤如下


将原始数据按列组成nm列矩阵X

---计算矩阵X中每个特征属性(n维)的平均向量M(平均值)

---将X的每行(代表一个属性字段)进行零均值化,即减去M

---按照公式𝐶=1 / m(𝑋*𝑋)^T求出协方差矩阵

---求出协方差矩阵的特征值及对应的特征向量

---将特征向量按对应特征值从大到小按行排列成矩阵,取前kk < n)行组成基向量P

---通过Y=PX计算降维到k维后的样本特征

计算40个点在3个维度上的平均向量

主成分分析(机器学习)-LMLPHP

转化为二维空间分布

主成分分析(机器学习)-LMLPHP

11-19 07:07