principal-component-analysis
主成分分析(PCA)
主成分分析的概念与建模
主成分分析的概念
PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。主成分的概念由Karl Pearson在1901年提出的。他是考察多个变量间相关性一种多元统计方法研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
数据降维
降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维具有如下一些优点:
- 使得数据集更易使用。
- 降低算法的计算开销。
- 去除噪声。
- 使得结果容易理解。
降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。
主成分分析的建模
使用主成分分析之前一定要对数据进行标准化处理
主成分分析法的适用范围
主成分分析法的主要作用为数据预处理时进行数据降维,适用于提供元素多维的情况下使用。
主成分分析的建模原理
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
主成分分析的基本思想
主成分分析的数学模型
数学模型的条件
主成分的提取
在实际应用中,通常用样本协差阵来表征总体协差阵。另外,为了消除指标量纲的影响,通常将原始数据进行标准化处理,从而协差阵等同于相关系数阵(spss做主成分或因子分析的时候会自动进行标准化,不用特意标准化处理)
主成分回归分析
主成分回归分析概念
主成分回归分析(principle component regression;PCR),以主成分为自变量进行的回归分析。是分析多元共线性问题的一种方法。用主成分得到的回归关系不像用原自变量建立的回归关系那样容易解释。
用主成分分析法对回归模型中的多重共线性进行消除后,将主成分变量作为自变量进行回归分析,然后根据得分系数矩阵将原变量代回得到的新的模型。
回归分析使用方法
MATLAB代码示例
对于主成分分析(PCA)建议使用SPSS来求解——
PCA步骤:
(1)对原始数据进行标准化处理
(2)计算样本相关系数矩阵
(3)计算相关系数矩阵R的特征值和相应的特征向量
(4)选择重要的主成分,写出主成分表达式
1 | %下例中企业综合实力排序问题,其中各列分别为:企业序号;净利润率;固定资产利润率;总产值利润率;销售收入利润率;产品成本利润率;物耗利润率;人均利润;流动资金 |
- Title: principal-component-analysis
- Author: Charles
- Created at : 2023-09-02 12:38:17
- Updated at : 2023-09-04 13:36:33
- Link: https://charles2530.github.io/2023/09/02/principal-component-analysis/
- License: This work is licensed under CC BY-NC-SA 4.0.