03
—
什么是数据的主成分
要做主成分分析(PCA分析),首先要弄明白什么是主成分吧,什么又不算是主成分,即次要成分。
为了说明什么是数据的主成分,我们看下面的这个表格,它是某校高一101班期中考试三门主科的考试成绩单,显示了前3位学生的分数,可以看到语文都是110分,数学和外语三位同学的考试分数差距比较大。现在要根据这三门课程对这三位同学排名次,显然影响名次的特征有3个,那么这3个特征中哪些是主要影响排名的特征,哪些不是主要影响排名的特征呢?
我们几乎一眼就能看出,语文不是影响排名的主要特征,因为他们考得一样多,所以语文分数这个特征对最终排名的影响可以忽略;可以看出数学和外语分数才是拉开差距的特征。
因此,数学和外语分数,这两个特征,便构成了影响排名的主要成分,而另外一个特征:语文分数,是可以忽略掉的成分。
为了最直观的说明什么是数据的主成分,我们列举了这个有些极端的例子,因为3位同学的语文成绩是一样的,所以是可以忽略掉这个特征的。但是实际上后面几十位同学的语文成绩的差距还是有一些的,所以还是要考虑一下语文成绩。
在这里说到了一个概念:差距,如何定义这个差距变量,其实它就是数据的方差,可以看到这3位同学的语文成绩平均值为110分,方差为0,我们说这个特征可以忽略,相对的,数学和外语能拉开差距,不是因为平均值高或低,而是因为差距即方差大,成绩分布的相对散开,所以选取数学和外语作为主成分、主特征。
04
—
如何选择主成分
承上,我们先从一个很容易理解例子开始,阐述了主成分选取的一个考量指标:某个特征的方差,方差越大,我们越会倾向于这个特征;相对的,方差越小越不可能趋向它。
但是,这种理解有一点偏差,好像根据这个例子给我们一种感觉:主成分分析是一种简单的从 n 个特征中,根据特征的方差从大到小选择 k 个特征的过程。这样理解是不准确的,其实PCA分析后选择的 k 个特征很可能不是原来的 n 个特征中的几个。
那么到底如何确定最终的几个特征呢? 根据以上的分析,主要还是得从特征的方差下手,经过数据去均值,得到数据的协方差矩阵(方差和两两特征间的相关系数),选取特征向量,和数据投影到特征向量矩阵中。如何通俗易懂但不失严谨性地理解PCA操作的过程,请看明天的推送。谢谢您的阅读!
来源: https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247484392&idx=1&sn=0c943521794ece7bc79cac59bbcda06d&chksm=eb7c2e23dc0ba7357227cf59f36a88af5cb33a248d8601abcba1995717d36ae60bf7215e8c95#rd