统计学习-数据集可视化实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作业2
上机题实验报告
(一)实验内容:
1.对Iris 数据集计算其协方差矩阵和相关系数,并计算协方差矩阵的特征值和特征向量,实现KL 变换。
2. 分别以Iris 数据集的四个变量作为坐标,画出各自的二维直方图。
(二)实验原理:
1. KL 变换步骤:
1)、减去平均值
2)、计算协方差矩阵
3)、计算协方差矩阵的特征值和特征向量
4)、将特征值从大到小排序
5)、将数据转换到上述N 个特征向量构建的新空间中
2. 二维直方图:
直方图是用面积而非高度来表示数量。直方图由一组块形组成,每一个块形的面积表示在相应的小组区间中事例的百分数。
(三)实验方案:
1. KL 变换:
1). 方案一:
按照KL 变换步骤,计算出所需的去均值后的数据矩阵,数据矩阵的协方差矩阵,对应的特征值和特征向量,进行相关运行算。
2). 方案二:
直接调用matlab 中函数princomp ,正确理解相关输入参数意义,实现主成分分析。
2. 二维直方图:
直接调用matlab 中函数hist ,分别输入四个不同变量。
(四)实验编程:
1. KL 变换:
1). 样本均值:
函数名称:mean
函数功能:求向量或矩阵的均值
函数语法:(以X 为矩阵为例)
mean(X) %默认dim=1)就会求X 每一列的均值
mean(X ,2) %求X 每一行的均值 样本均值:1
1N
i i X X N ==∑
2). 协方差矩阵:
函数名称:cov
函数功能:求协方差矩阵
函数语法:
cov(X) % cov(X,0) = cov(X)=vor(x)
cov(X,Y) %求矩阵X 与Y 的协方差矩阵。若X 大小为M*N ,Y 为K*P ,
则X ,Y 的大小必须满足M*N=K*P ,即X ,Y 的元素个数
相同。
cov(X,1) %计算方法如cov(x),归一化参数为1/N
cov(X,Y ,1) %计算方法如cov(x,y),但归一化参数为1/N 。 样本方差:()211N
i i S X X N ==-∑ 样本之间协方差:()()
11N
i i i C X X Y Y N ==--∑
3). 相关系数矩阵:
函数名称:corrcoef
函数功能:求相关系数矩阵
函数用法:
corrcoef(X) % 求矩阵X 的相关系数,X 每一行为一次观察,一列
为一个变量
corrcoef (X,Y) % X,Y 必须是各维数都相同的矩阵
样本之间相关系数:,i k p =
4). 矩阵特征值和特征向量:
函数名称:eig
函数功能:计算矩阵的特征值和特征向量
函数语法:
E=eig(A) %求矩阵A 的全部特征值,构成向量E 。
[V,D]=eig(A) %求矩阵A 的全部特征值,构成对角阵D ,并求A 的
特征向量构成V 的列向量。
5).主成分分析:
函数名称:princomp
函数功能:主成分分析
函数语法:
[coeff, score, latent] = princomp(x)
coeff : 协方差矩阵的特征向量按照特征值递减顺序排列;
score :是原来的样本矩阵在新的坐标系中的表示,也就是去均值后的样本矩阵乘上
转换矩阵;
latent :score 矩阵每一列的方差,由latent 可以算出降维后的空间所能表示原空间
的程度,计算累计程度
cumsum(latent)./sum(latent)可表示新空间表示原空间的程度。
2. 二维直方图:
函数名称:hist3
函数功能:绘制直方图函数
函数用法:
Hist3(Y) %Y为m*2维矩阵,按10*10画直方图
hist(Y,N) %按N(1)*N(2)画出直方图
(五)实验结果及分析:
1.实验运行结果各参数含义:
1). KL 变换:
covMat.mat:原始数据矩阵的协方差矩阵;
correoff.mat:原始数据矩阵的相关系数;
eigVals.mat:协方差矩阵的特征值;
eigVects.mat:协方差矩阵的特征向量;
KLMat.mat:方案一中KL变换未降维后的数据矩阵;
score.mat:方案二中主成分分析未降维后的数据矩阵;
2). 二维直方图:
sepal length:变量1,对应原始数据矩阵第一列;
sepal width:变量2,对应原始数据矩阵第二列;
petal length:变量3,对应原始数据矩阵第三列;
petal width:变量一4,对应原始数据矩阵第四列;
2.实验运行结果和分析:
1). KL 变换:
实验中,对原始数据降维后重构的标准是,新数据可反映原始数据程度大于95%:在方案一中,将数据协方差矩阵的特征值从大到小排序,再将数据转换到上述N 个特征向量构建的新空间中;
在方案二中,直接调用函数实现主成分分析,得到新的数据矩阵‘
比较可以看出,两种方案中,主成分分析后,KL变换得到数据结果相同,方案一的应用可以更清晰的理解KL变换的数学意义。
2). 二维直方图:
如图1,分别以Iris数据集的四个变量作为坐标,画出各自的二维直方图。