统计学习-数据集可视化实验报告

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作业2

上机题实验报告

(一)实验内容:

1.对Iris 数据集计算其协方差矩阵和相关系数,并计算协方差矩阵的特征值和特征向量,实现KL 变换。

2. 分别以Iris 数据集的四个变量作为坐标,画出各自的二维直方图。

(二)实验原理:

1. KL 变换步骤:

1)、减去平均值

2)、计算协方差矩阵

3)、计算协方差矩阵的特征值和特征向量

4)、将特征值从大到小排序

5)、将数据转换到上述N 个特征向量构建的新空间中

2. 二维直方图:

直方图是用面积而非高度来表示数量。直方图由一组块形组成,每一个块形的面积表示在相应的小组区间中事例的百分数。

(三)实验方案:

1. KL 变换:

1). 方案一:

按照KL 变换步骤,计算出所需的去均值后的数据矩阵,数据矩阵的协方差矩阵,对应的特征值和特征向量,进行相关运行算。

2). 方案二:

直接调用matlab 中函数princomp ,正确理解相关输入参数意义,实现主成分分析。

2. 二维直方图:

直接调用matlab 中函数hist ,分别输入四个不同变量。

(四)实验编程:

1. KL 变换:

1). 样本均值:

函数名称:mean

函数功能:求向量或矩阵的均值

函数语法:(以X 为矩阵为例)

mean(X) %默认dim=1)就会求X 每一列的均值

mean(X ,2) %求X 每一行的均值 样本均值:1

1N

i i X X N ==∑

2). 协方差矩阵:

函数名称:cov

函数功能:求协方差矩阵

函数语法:

cov(X) % cov(X,0) = cov(X)=vor(x)

cov(X,Y) %求矩阵X 与Y 的协方差矩阵。若X 大小为M*N ,Y 为K*P ,

则X ,Y 的大小必须满足M*N=K*P ,即X ,Y 的元素个数

相同。

cov(X,1) %计算方法如cov(x),归一化参数为1/N

cov(X,Y ,1) %计算方法如cov(x,y),但归一化参数为1/N 。 样本方差:()211N

i i S X X N ==-∑ 样本之间协方差:()()

11N

i i i C X X Y Y N ==--∑

3). 相关系数矩阵:

函数名称:corrcoef

函数功能:求相关系数矩阵

函数用法:

corrcoef(X) % 求矩阵X 的相关系数,X 每一行为一次观察,一列

为一个变量

corrcoef (X,Y) % X,Y 必须是各维数都相同的矩阵

样本之间相关系数:,i k p =

4). 矩阵特征值和特征向量:

函数名称:eig

函数功能:计算矩阵的特征值和特征向量

函数语法:

E=eig(A) %求矩阵A 的全部特征值,构成向量E 。

[V,D]=eig(A) %求矩阵A 的全部特征值,构成对角阵D ,并求A 的

特征向量构成V 的列向量。

5).主成分分析:

函数名称:princomp

函数功能:主成分分析

函数语法:

[coeff, score, latent] = princomp(x)

coeff : 协方差矩阵的特征向量按照特征值递减顺序排列;

score :是原来的样本矩阵在新的坐标系中的表示,也就是去均值后的样本矩阵乘上

转换矩阵;

latent :score 矩阵每一列的方差,由latent 可以算出降维后的空间所能表示原空间

的程度,计算累计程度

cumsum(latent)./sum(latent)可表示新空间表示原空间的程度。

2. 二维直方图:

函数名称:hist3

函数功能:绘制直方图函数

函数用法:

Hist3(Y) %Y为m*2维矩阵,按10*10画直方图

hist(Y,N) %按N(1)*N(2)画出直方图

(五)实验结果及分析:

1.实验运行结果各参数含义:

1). KL 变换:

covMat.mat:原始数据矩阵的协方差矩阵;

correoff.mat:原始数据矩阵的相关系数;

eigVals.mat:协方差矩阵的特征值;

eigVects.mat:协方差矩阵的特征向量;

KLMat.mat:方案一中KL变换未降维后的数据矩阵;

score.mat:方案二中主成分分析未降维后的数据矩阵;

2). 二维直方图:

sepal length:变量1,对应原始数据矩阵第一列;

sepal width:变量2,对应原始数据矩阵第二列;

petal length:变量3,对应原始数据矩阵第三列;

petal width:变量一4,对应原始数据矩阵第四列;

2.实验运行结果和分析:

1). KL 变换:

实验中,对原始数据降维后重构的标准是,新数据可反映原始数据程度大于95%:在方案一中,将数据协方差矩阵的特征值从大到小排序,再将数据转换到上述N 个特征向量构建的新空间中;

在方案二中,直接调用函数实现主成分分析,得到新的数据矩阵‘

比较可以看出,两种方案中,主成分分析后,KL变换得到数据结果相同,方案一的应用可以更清晰的理解KL变换的数学意义。

2). 二维直方图:

如图1,分别以Iris数据集的四个变量作为坐标,画出各自的二维直方图。

相关文档
最新文档