数据分析实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据分析》实验报告
班级: 07信计0班 学号: 姓名:
实验日期 2010-3-11 实验地点: 实
验楼505
实验名称: 样本数据的特征分析 使用软件名称:MATLAB
1. 熟练掌握利用Matlab 软件计算均值、方差、协方差、相关系数、标准差 与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差;
2. 熟练掌握jbtest 与lillietest 关于一元数据的正态性检验;
3. 掌握统计作图方法;
4. 掌握多元数据的数字特征与相关矩阵的处理方法;
安徽省1990-2004年万元工业GDP 废气排放量、废水排放量、固体废物排放 量以及用于污染治理的投入经费比重见表 6.1.1,解决以下问题:
表6.1.1
实
验 目 的
1. 计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵;
2. 计算各指标的偏度、峰度、三均值以及极差;
3•做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数;
4.上网查找1990-2004江苏省万元工业GDR废气排放量,安徽省与江苏省是否
服从同样的分布?
程序如下:
clear;clc
format ba nk %保留两位小数
%%%%%%%%%%%安徽省%数据%%%%%%%%%%%%%%%%%%
A=[104254.40 519.48 441.65 0.18
94415.00 476.97 398.19 0.26
89317.41 119.45 332.14 0.23
63012.42 67.93 203.91 0.20
45435.04 7.86 128.20 0.17
46383.42 12.45 113.39 0.22
39874.19 13.24 87.12 0.15
38412.85 37.97 76.98 0.21
35270.79 45.36 59.68 0.11
35200.76 34.93 60.82 0.15
35848.97 1.82 57.35 0.19
40348.43 1.17 53.06 0.11
40392.96 0.16 50.96 0.12
37237.13 0.05 43.94 0.15
34176.27 0.06 36.90 0.13];
%计算各指标的均值、方差、标准差、变异系数、偏度、峰度以及极差
A1=[mea n(A);var(A);std(A);std(A)./mea n(A);skew ness(A,0);kurtosis(A,0)-3;ra nge( A)]
%E均值
A2=[1/4 1/2 1/4]*prctile(A,[25 50 75])
% 十算各指标的相关系数矩阵
A3=corrcoef(A)
%做岀各指标数据直方图
subplot(221),histfit(A(:,1),8)
subplot(222),histfit(A(:,2),8)
subplot(223),histfit(A(:,3),8)
subplot(224),histfit(A(:,4),7)
%检验该数据是否服从正态分布
for i=1:4
[h(i),p(i),lstat(i),cv(i)]=lillietest(A(:,i),0.05);
end
h,p
%十算岀前二列不服从正态分布,利用boxcox变换以后给岀该数据的密度函数[t1,l1]=boxcox(A(:,1))
[t2,l2]=boxcox(A(:,2))
[t3,I3]=boxcox(A(:,3))
%%%%%%%%%%%%苏省%%据%%%%%%%%%%%%%%%%%
J=[5047.00 24.23 2234.00
5730.00 24.00 2077.00
5352.00 22.49 2450.00
5202.00 21.16 2323.00
5772.14 21.16 2725.00
7872.11 22.02 2883.00
7450.81 21.97 2891.00
8164.24 22.01 2857.00
7487.85 20.29 2944.00
8353.93 20.11 2896.00
9078.20 20.19 3038.00
13343.99 27.10 3553.00
14286.46 26.30 3796.00
14632.69 24.75 3893.70
17818.42 26.35 4672.53
20196.58 29.63 5757.37];
%佥验该数据是否服从正态分布
for i=1:3
[h1(i),p1(i),lstat1(i),cv1(i)]=lillietest(J(:,i),0.05);
end
h1,p1
%计算岀第一、三列不服从正态分布,利用boxcox变换以后给岀该数据的密度函数
[t11,l11]=boxcox(J(:,1))
[t33,l33]=boxcox(J(:,3)
1.各指标的均值、方差、标准差、变异系数、偏度、峰度、极差和三均值如下表:
1
、1
0.89 0.99 0.62]
0.89 1 0.90 0.49
R = 0.99 0.90
1
0.65 1
0.62 0.49 0.65
1 _
2.各指标数据的直方图如下:
验 结 果 分 析
峰度 0.57 3.87 0.67 -0.83 极差
70078.13 519.43 404.75 0.15 三均值
43937.01
22.52
98.27
0.17
3.经检验可知:安徽省万元工业GDP 废气排放量、废水排放量、固体废物排
放量数据不服从正态分布,而用于污染治理的投入经费数据服从正态分布。
前三列数据利用boxcox 变换以后(解得 '二239,,2二0.09,,3 从正态分布,而变换公式为:y =(x -1” ’,故密度函数为:
=-0.61 )服
(y-門2
exp (-(
[ 2))
2^ ,则原始数据的密度函数为:
(X - 1)[
f (x ) = ^〒 e )p (-
)
f(y)亠
2;八2 相关系数矩阵为: