主分量分析和线性判别分析在分类问题中的应用
【摘 要】对于维数较多的研究对象,为了研究的方便,总希望先将维数降低.主分量分析(PCA)和Fisher线性判别分析(FDA)是广泛应用于模式识别各个领域的两种常用方法.本文先利用主分量分析,将原始数据维数降低,然后再利用Fisher线性判别分析将维数再次降低,得到低维的数据,实验结果表明了两种方法结合的有效性.
【关键词】主分量分析;Fisher线性判别;距离判别法
【Abstract】As tบo an object of multi dimension, we always hope to make its dimension reduced in order to facilitate the study on it. Principal component analysis and Fisher linear discriminant analysis are two common methods widely used in various fields of pattern recognition. This article reduced the dimension of original data, by the principal component analysis at first, and then use Fisher linear discriminant analysis to reduce the dimension once again, obtaining lower-dimensional data, finally experimental results demonstrated the effectiveness of two methods’ combination.
【Key words】Principle compoment analysis; Fisher linear discriminant analysis; A method of differentiating distances
0 引言
在生产p科研和日常生活中我们经常会遇到判别分类问题,在这些问题中,已经知道研究对象可以分为几个类,而且对这些类别也已经作了一些观测,取得了一批样本数据. 我们需要对这些数据进行处理,找到不同类别之间的显著性区别和判别方法.
1 主分量分析和线性判别分析的原理
主分量分析的基本原理:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一降维处理技术.主分量分析的基本思想:主分量分析是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标.通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标 [3].
Fisher线性判别ศ分析的基本原理:将高维空间中的类映射유到低维空间,并且要求在低维空间类与类之间较好区分,是一降维处理技术.Fisher线性判别分析的基本思想:对于多个类来讲,我们希望类内离散度越小越好,类间离散度越大越好.对于原始的类,我们想通过将其投影到低维空间,并且要求经过投影后达到类内离散度最小,类间离散度最大.在投影的过程中,如果投影到一维空间效果不是很好,我们可以将其维数增多[4].
2 实例
现对三类品种的鸢尾属(Iris)植物进行研究,希望通过研究鸢尾属植物的几个主要指标,可以将一个未知样本进行归类.对鸢尾属植物的四个指标进行了统计.对统计数★据作如下变换:
①对所有样本数据X进行中心化标准化.
②对处理后的数据求解相关系数矩阵R得
③求解R的特征值λi和特征向量ei.
由上表可以看出,前三个特征值的累积贡献率已达到99.485%,所以我们选取前三个特征值所对应的特征向量为主成分,这样我们就将四维空间降到三维空间.原始数据经过主分量分析,位数降低,得到变换Y=X*E.
经过主分量分析,原始数据已经降到三维,我们将对得到的三维空间里的数据再次进行降维处理.我们选取各类中的前40个样本代表该类进行研究.
④分别计算出各类的样本均值mk和所有样本的均值m
⑤计算类内离散度矩阵Sw和类间离散度矩阵Sb
⑥计算Sb和Sw的广义特征值和特征向量
⑦对Y进行Fisher线性判别,得到变换Z=Y*W.
⑧计算经过变换后所得到的类的均值
通过主分量分析和Fisher线性判别,我们将样本由四维空间降到一维空间.由上面的计算,我们可以得到公式Z=X*E*W.
随机选取45个样本得到样本组x,在选取样本时,前15个样本是从第一类中抽取的,中间15个样本是从第二类中抽取的,最后15个样本是从第三类中抽取的.我们首先对需要判别的样本进行变换, 然后分别计算这45个样本到三类均值的距离
表2中加粗的数字表示该样本距离某类均值距离最小,也就是样本属于这个类.判别结果为前15个样本判为第一类,中间16个样本判为第二类,最后14个样本判为第三类.其中第31个样本通过距离判别判为第二类,而这个样本是从第三类中抽取的;其他样本判别均正确.在这次判别中,错误率为1/45,我们认为判别是比较合理的.对所有的样本都进行分类判✘别,其错误率为4/150,我们认为对数据的处理以及距离判别的方法是比较合理的.
3 小结
我们在研究鸢尾属植物的三个品种时,首先运用主分量分析,在这个过程中维数降低了一维,但我们保留了99.485%的原有信息,可以说这一数据变换很有意义.在主分量分析之后,我们再运用Fisher线性判别分析,将数据进行投影,投影到一维空间.然后我们选取了45个样本进行分类判别时,判别结果比较理想,从而验证了两次降维处理的有效性和距离判别的可行性.
【参考文献】
[2]吴翊,李永乐,胡庆军,等.应用数理统计[M].长沙:国防科技大学出版社,2005.
[3]朱永生.实验数据多元统计分析[M].北京:科学出版社,2009.
[4]杨淑莹.模式识别与智能计算Matlab技术实现[M].北京:电子工业出版社,2008.
[5]李弼程,邵美珍,黄洁.模式识原理与应用[M].西安:西安电子科技大学出版社,2008.