pca原理及 sklearn 标准化

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

pca原理及 sklearn 标准化
PCA原理及sklearn标准化
PCA（Principal Component Analysis）是一种常用的数据降维方法，它可以将高维数据降到低维，同时保留数据的主要特征。

PCA的核心
思想是将原始数据投影到一个新的坐标系中，使得数据在新坐标系中
的方差最大化。

这个新坐标系的基向量被称为主成分，它们是原始数
据的线性组合。

PCA的实现过程可以分为以下几个步骤：
1. 对数据进行标准化处理，使得每个特征的均值为0，方差为1。

2. 计算数据的协方差矩阵。

3. 对协方差矩阵进行特征值分解，得到特征值和特征向量。

4. 将特征向量按照对应的特征值大小排序，选取前k个特征向量作为
新的基向量。

5. 将原始数据投影到新的坐标系中，得到降维后的数据。

在sklearn中，可以使用PCA类来实现PCA降维。

下面是一个简单的示例代码：
```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import numpy as np
# 生成随机数据
X = np.random.rand(100, 5)
# 对数据进行标准化处理
scaler = StandardScaler()
X_std = scaler.fit_transform(X)
# 创建PCA对象，设置降维后的维度为2
pca = PCA(n_components=2)
# 对标准化后的数据进行PCA降维
X_pca = pca.fit_transform(X_std)
```
在上面的代码中，我们首先生成了一个100行5列的随机数据矩阵X，然后使用StandardScaler类对数据进行标准化处理，得到标准化后的数据矩阵X_std。

接着，我们创建了一个PCA对象，将降维后的维度
设置为2，并使用fit_transform方法对标准化后的数据进行PCA降维，得到降维后的数据矩阵X_pca。

需要注意的是，在使用PCA进行降维之前，一定要对数据进行标准化处理。

这是因为PCA是一种基于方差的方法，如果数据的不同特征之间的方差差异很大，那么PCA会更倾向于选择方差较大的特征，而忽略方差较小的特征。

因此，为了保证每个特征对降维结果的贡献相等，我们需要对数据进行标准化处理，使得每个特征的方差都为1。

总之，PCA是一种常用的数据降维方法，它可以将高维数据降到低维，同时保留数据的主要特征。

在使用PCA进行降维之前，一定要对数据进行标准化处理，以保证每个特征对降维结果的贡献相等。

在sklearn 中，可以使用PCA类来实现PCA降维。