统计学习-数据集可视化实验报告

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作业2

上机题实验报告

（一）实验内容：

1.对Iris 数据集计算其协方差矩阵和相关系数，并计算协方差矩阵的特征值和特征向量，实现KL 变换。

2. 分别以Iris 数据集的四个变量作为坐标，画出各自的二维直方图。

（二）实验原理：

1. KL 变换步骤：

1)、减去平均值

2)、计算协方差矩阵

3)、计算协方差矩阵的特征值和特征向量

4)、将特征值从大到小排序

5)、将数据转换到上述N 个特征向量构建的新空间中

2. 二维直方图：

直方图是用面积而非高度来表示数量。直方图由一组块形组成，每一个块形的面积表示在相应的小组区间中事例的百分数。

（三）实验方案：

1. KL 变换：

1）. 方案一：

按照KL 变换步骤，计算出所需的去均值后的数据矩阵，数据矩阵的协方差矩阵，对应的特征值和特征向量，进行相关运行算。

2）. 方案二：

直接调用matlab 中函数princomp ，正确理解相关输入参数意义，实现主成分分析。

2. 二维直方图：

直接调用matlab 中函数hist ，分别输入四个不同变量。

（四）实验编程：

1. KL 变换：

1). 样本均值：

函数名称：mean

函数功能：求向量或矩阵的均值

函数语法：（以X 为矩阵为例）

mean(X) %默认dim=1）就会求X 每一列的均值

mean(X ，2) %求X 每一行的均值样本均值：1

1N

i i X X N ==∑

2). 协方差矩阵：

函数名称：cov

函数功能：求协方差矩阵

函数语法：

cov(X) % cov(X,0) = cov(X)=vor(x)

cov(X,Y) %求矩阵X 与Y 的协方差矩阵。若X 大小为M*N ，Y 为K*P ，

则X ，Y 的大小必须满足M*N=K*P ，即X ，Y 的元素个数

相同。

cov(X,1) %计算方法如cov(x)，归一化参数为1/N

cov(X,Y ,1) %计算方法如cov(x,y)，但归一化参数为1/N 。样本方差：()211N

i i S X X N ==-∑ 样本之间协方差：()()

11N

i i i C X X Y Y N ==--∑

3). 相关系数矩阵：

函数名称：corrcoef

函数功能：求相关系数矩阵

函数用法：

corrcoef(X) % 求矩阵X 的相关系数，X 每一行为一次观察，一列

为一个变量

corrcoef (X,Y) % X,Y 必须是各维数都相同的矩阵

样本之间相关系数：,i k p =

4). 矩阵特征值和特征向量：

函数名称：eig

函数功能：计算矩阵的特征值和特征向量

函数语法：

E=eig(A) %求矩阵A 的全部特征值，构成向量E 。

[V,D]=eig(A) %求矩阵A 的全部特征值，构成对角阵D ，并求A 的

特征向量构成V 的列向量。

5).主成分分析：

函数名称：princomp

函数功能：主成分分析

函数语法：

[coeff, score, latent] = princomp(x)

coeff : 协方差矩阵的特征向量按照特征值递减顺序排列；

score ：是原来的样本矩阵在新的坐标系中的表示，也就是去均值后的样本矩阵乘上

转换矩阵；

latent ：score 矩阵每一列的方差，由latent 可以算出降维后的空间所能表示原空间

的程度，计算累计程度

cumsum(latent)./sum(latent)可表示新空间表示原空间的程度。

2. 二维直方图：

函数名称：hist3

函数功能：绘制直方图函数

函数用法：

Hist3(Y) %Y为m*2维矩阵，按10*10画直方图

hist(Y，N) %按N（1）*N（2）画出直方图

（五）实验结果及分析：

1．实验运行结果各参数含义：

1). KL 变换：

covMat.mat：原始数据矩阵的协方差矩阵；

correoff.mat：原始数据矩阵的相关系数；

eigVals.mat：协方差矩阵的特征值；

eigVects.mat：协方差矩阵的特征向量；

KLMat.mat：方案一中KL变换未降维后的数据矩阵；

score.mat：方案二中主成分分析未降维后的数据矩阵；

2). 二维直方图：

sepal length：变量1，对应原始数据矩阵第一列；

sepal width：变量2，对应原始数据矩阵第二列；

petal length：变量3，对应原始数据矩阵第三列；

petal width：变量一4，对应原始数据矩阵第四列；

2．实验运行结果和分析：

1). KL 变换：

实验中，对原始数据降维后重构的标准是，新数据可反映原始数据程度大于95%：在方案一中，将数据协方差矩阵的特征值从大到小排序，再将数据转换到上述N 个特征向量构建的新空间中；

在方案二中，直接调用函数实现主成分分析，得到新的数据矩阵‘

比较可以看出，两种方案中，主成分分析后，KL变换得到数据结果相同，方案一的应用可以更清晰的理解KL变换的数学意义。

2). 二维直方图：

如图1，分别以Iris数据集的四个变量作为坐标，画出各自的二维直方图。