1.为什么要进行主成分分析
主成分分析(PCA)是一种多元技术,用于降低数据集的维数,同时尽可能多地保留数据中的信息。
主成分分析的主要目的是为了降维,如果有个非常大的数据矩阵,例如n行m列的数据,直接观察数据信息是不可行的,用降维的方式可以观察到数据中的趋势,例如一个三维数据,就可以降维成二维平面数据,那么PCA分析就是要通过寻找一个最好的方式,使之能够最大还原数据原本的信息,又能是较低维度的数据。
例如如下图:
一个3D数据投影成2D数据,但是我们很难看出来原始数据是什么信息。
再看下图,通过分析原始数据在主成分上的投影,可以更好的捕捉到原始数据的信息,又起到了降维的作用。
如何理解这些呢?后面详细讲述。
2.理解主成分分析背后的原理
降维
当数据只有XY两列的时候,我们可以绘制一个平面图,直观的表示这两个变量之间的关系,但是随着数据量的增加,我们想要理解每个变量之间的关系变得困难。
我们可以用下图的方式绘制出ABC变量之间的关系,C代表颜色,然而,即使有了该图,变量A与变量C(以及变量B与变量C)之间的任何关系均不明显。随着变量A(或变量B)的值增加,变量C的值的模式似乎不可预测。
可以向该图中添加一个附加变量,使用其值来确定符号尺寸。在下图中,符号尺寸与变量D的值成比例。然而,随着数据行数的增加,这种图表变得更加难以阅读,关系当然不会显而易见。
如果数据量更大的话,更加难以在一个图中呈现出所有变量数据。
因此需要用PCA分析进行降维处理,以更加全面的理解多维数据之间的关系
特征选择和特征提取
在我学习的过程中,难住我的就是如何理解PCA降维,特征选择又是什么意思。经过我的详细理解和琢磨,终于有了一些理解。
“特征”两个字其实不必去弄懂具体指代的是什么,其实就是一种变量,通过一种关系来表示原始变量。
通过特征选择,首先考虑所有变量,然后基于特定的标准,删除一些变量。其余变量可能会经历多轮附加选择,选择出来的一些特征能够更加全面的表示原始数据。
PCA对原始变量进行线性组合来导出新的特征集(在PCA中,