数据分析实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据分析》实验报告

班级: 07信计0班 学号: 姓名:

实验日期 2010-3-11 实验地点: 实

验楼505

实验名称: 样本数据的特征分析 使用软件名称:MATLAB

1. 熟练掌握利用Matlab 软件计算均值、方差、协方差、相关系数、标准差 与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差;

2. 熟练掌握jbtest 与lillietest 关于一元数据的正态性检验;

3. 掌握统计作图方法;

4. 掌握多元数据的数字特征与相关矩阵的处理方法;

安徽省1990-2004年万元工业GDP 废气排放量、废水排放量、固体废物排放 量以及用于污染治理的投入经费比重见表 6.1.1,解决以下问题:

表6.1.1

验 目 的

1. 计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵;

2. 计算各指标的偏度、峰度、三均值以及极差;

3•做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数;

4.上网查找1990-2004江苏省万元工业GDR废气排放量,安徽省与江苏省是否

服从同样的分布?

程序如下:

clear;clc

format ba nk %保留两位小数

%%%%%%%%%%%安徽省%数据%%%%%%%%%%%%%%%%%%

A=[104254.40 519.48 441.65 0.18

94415.00 476.97 398.19 0.26

89317.41 119.45 332.14 0.23

63012.42 67.93 203.91 0.20

45435.04 7.86 128.20 0.17

46383.42 12.45 113.39 0.22

39874.19 13.24 87.12 0.15

38412.85 37.97 76.98 0.21

35270.79 45.36 59.68 0.11

35200.76 34.93 60.82 0.15

35848.97 1.82 57.35 0.19

40348.43 1.17 53.06 0.11

40392.96 0.16 50.96 0.12

37237.13 0.05 43.94 0.15

34176.27 0.06 36.90 0.13];

%计算各指标的均值、方差、标准差、变异系数、偏度、峰度以及极差

A1=[mea n(A);var(A);std(A);std(A)./mea n(A);skew ness(A,0);kurtosis(A,0)-3;ra nge( A)]

%E均值

A2=[1/4 1/2 1/4]*prctile(A,[25 50 75])

% 十算各指标的相关系数矩阵

A3=corrcoef(A)

%做岀各指标数据直方图

subplot(221),histfit(A(:,1),8)

subplot(222),histfit(A(:,2),8)

subplot(223),histfit(A(:,3),8)

subplot(224),histfit(A(:,4),7)

%检验该数据是否服从正态分布

for i=1:4

[h(i),p(i),lstat(i),cv(i)]=lillietest(A(:,i),0.05);

end

h,p

%十算岀前二列不服从正态分布,利用boxcox变换以后给岀该数据的密度函数[t1,l1]=boxcox(A(:,1))

[t2,l2]=boxcox(A(:,2))

[t3,I3]=boxcox(A(:,3))

%%%%%%%%%%%%苏省%%据%%%%%%%%%%%%%%%%%

J=[5047.00 24.23 2234.00

5730.00 24.00 2077.00

5352.00 22.49 2450.00

5202.00 21.16 2323.00

5772.14 21.16 2725.00

7872.11 22.02 2883.00

7450.81 21.97 2891.00

8164.24 22.01 2857.00

7487.85 20.29 2944.00

8353.93 20.11 2896.00

9078.20 20.19 3038.00

13343.99 27.10 3553.00

14286.46 26.30 3796.00

14632.69 24.75 3893.70

17818.42 26.35 4672.53

20196.58 29.63 5757.37];

%佥验该数据是否服从正态分布

for i=1:3

[h1(i),p1(i),lstat1(i),cv1(i)]=lillietest(J(:,i),0.05);

end

h1,p1

%计算岀第一、三列不服从正态分布,利用boxcox变换以后给岀该数据的密度函数

[t11,l11]=boxcox(J(:,1))

[t33,l33]=boxcox(J(:,3)

1.各指标的均值、方差、标准差、变异系数、偏度、峰度、极差和三均值如下表:

1

、1

0.89 0.99 0.62]

0.89 1 0.90 0.49

R = 0.99 0.90

1

0.65 1

0.62 0.49 0.65

1 _

2.各指标数据的直方图如下:

验 结 果 分 析

峰度 0.57 3.87 0.67 -0.83 极差

70078.13 519.43 404.75 0.15 三均值

43937.01

22.52

98.27

0.17

3.经检验可知:安徽省万元工业GDP 废气排放量、废水排放量、固体废物排

放量数据不服从正态分布,而用于污染治理的投入经费数据服从正态分布。

前三列数据利用boxcox 变换以后(解得 '二239,,2二0.09,,3 从正态分布,而变换公式为:y =(x -1” ’,故密度函数为:

=-0.61 )服

(y-門2

exp (-(

[ 2))

2^ ,则原始数据的密度函数为:

(X - 1)[

f (x ) = ^〒 e )p (-

f(y)亠

2;八2 相关系数矩阵为:

相关文档
最新文档