探索性数据分析 数据的分布描述R软件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
七、练习实验
68
74
64
79
78
79
77
86
89
76
74
85
92
78
88
77
103
88
63
68
88
81
74
70
85
61
65
81
75
62
94
71
93
61
65
62
92
65
64
66
83
70
78
66
66
94
77
63
66
75
68
76
61
71
77
91
96
75
64
76
72
77
81
71
85
99
59
92
94
62
68
72
85
67
87
80
84
93
69
76
89
75
73
81
54
65
71
80
84
88
62
61
61
82
65
98
63
71
62
116
65
88
73
80
68
78
89
72
58
69
82
72
64
73
75
90
62
89
71
71
74
70
85ቤተ መጻሕፍቲ ባይዱ
84
83
63
92
68
81
62
79
83
70
81
77
72
84
67
59
58
73
83
73
76
90
78
71
101
78
实验二数据分布
一、实验目的
掌握判断样本数据是否来自正太总体的方法;对于给定的样本数据,会通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。
二、实验内容
通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。
三、准备知识
想要了解样本数据的总体分布情况,仅有特征统计量是不够的,还需要研究数据的分布。而研究数据的总体分布的一个主要问题就是想知道数据是否来自于某一个正太总体,也就是所谓的分布的正态性检验问题。研究这一问题常用到的方法包括直方图、经验分布图Q-Q图以及下一个实验内容所包括的茎叶图、箱线图等
>plot(ecdf(x),verticals = TRUE,do.p= FALSE)
> w <- min(x):max(x)
>lines(w,pnorm(w, mean(x),sd(x)))
3.画出数据的正态QQ图和正太QQ曲线,判断样本是否来自正态总体
>qqnorm(x);qqline(x)
六、实验总结
43
59
67
74
65
82
86
79
74
66
86
96
89
77
60
87
84
75
77
51
45
63
102
59
77
83
68
72
67
92
89
82
96
根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。
五、实验过程
1.直方图
>hist(x)
>hist(x,breaks=15)
绘出直方图和密度估计曲线和正太分布的概率密度曲线
>hist(x, freq = FALSE)
>lines(density(x),col= "blue")
> w <- min(x):max(x)
>lines(w,dnorm(w, mean(x),sd(x)),col= "red")
2.经验分布图
绘出200个灯泡使用时间的经验分布图和相应的正态分布图
直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。直方图是用面积而非高度来表示数量。直方图由一组块形组成,每一个块形的面积表示在相应的小组区间中事例的百分数。采用密度尺度,每一个块形的高度等于相应小组区间中事例的百分数除以该区间的长度。其面积呈现为百分数,总面积为100%。直方图下两个数值之间的面积给出了落在那个区间内的事例的百分数。
Q-Q图可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。
四、实验背景
某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。
107
73
68
97
76
79
94
59
98
57
79
98
63
65
66
62
79
86
经验分布图:直方图的制作适合于总体为连续分布的场合。对于一般的总体分布,若要估计它的总体分布函数,可以采用经验分布函数。
经验分布函数是指根据样本构造的概率分布函数. 设 为一组样本, 定义函数 表示样本中小于或者等于 的样本个数, 则称函数
为样本 为的经验分布函数.
Q-Q图:Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息.
68
74
64
79
78
79
77
86
89
76
74
85
92
78
88
77
103
88
63
68
88
81
74
70
85
61
65
81
75
62
94
71
93
61
65
62
92
65
64
66
83
70
78
66
66
94
77
63
66
75
68
76
61
71
77
91
96
75
64
76
72
77
81
71
85
99
59
92
94
62
68
72
85
67
87
80
84
93
69
76
89
75
73
81
54
65
71
80
84
88
62
61
61
82
65
98
63
71
62
116
65
88
73
80
68
78
89
72
58
69
82
72
64
73
75
90
62
89
71
71
74
70
85ቤተ መጻሕፍቲ ባይዱ
84
83
63
92
68
81
62
79
83
70
81
77
72
84
67
59
58
73
83
73
76
90
78
71
101
78
实验二数据分布
一、实验目的
掌握判断样本数据是否来自正太总体的方法;对于给定的样本数据,会通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。
二、实验内容
通过R软件画出样本数据的直方图、经验分布图以及Q-Q图。
三、准备知识
想要了解样本数据的总体分布情况,仅有特征统计量是不够的,还需要研究数据的分布。而研究数据的总体分布的一个主要问题就是想知道数据是否来自于某一个正太总体,也就是所谓的分布的正态性检验问题。研究这一问题常用到的方法包括直方图、经验分布图Q-Q图以及下一个实验内容所包括的茎叶图、箱线图等
>plot(ecdf(x),verticals = TRUE,do.p= FALSE)
> w <- min(x):max(x)
>lines(w,pnorm(w, mean(x),sd(x)))
3.画出数据的正态QQ图和正太QQ曲线,判断样本是否来自正态总体
>qqnorm(x);qqline(x)
六、实验总结
43
59
67
74
65
82
86
79
74
66
86
96
89
77
60
87
84
75
77
51
45
63
102
59
77
83
68
72
67
92
89
82
96
根据给定的样本数据画出数据的直方图、经验分布图以及Q-Q图。
五、实验过程
1.直方图
>hist(x)
>hist(x,breaks=15)
绘出直方图和密度估计曲线和正太分布的概率密度曲线
>hist(x, freq = FALSE)
>lines(density(x),col= "blue")
> w <- min(x):max(x)
>lines(w,dnorm(w, mean(x),sd(x)),col= "red")
2.经验分布图
绘出200个灯泡使用时间的经验分布图和相应的正态分布图
直方图:直方图是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。直方图是用面积而非高度来表示数量。直方图由一组块形组成,每一个块形的面积表示在相应的小组区间中事例的百分数。采用密度尺度,每一个块形的高度等于相应小组区间中事例的百分数除以该区间的长度。其面积呈现为百分数,总面积为100%。直方图下两个数值之间的面积给出了落在那个区间内的事例的百分数。
Q-Q图可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。
四、实验背景
某灯泡生产厂商测试某种新型灯泡的燃烧寿命,如下数据表格列出了200个灯泡样本的可使用小时数。
107
73
68
97
76
79
94
59
98
57
79
98
63
65
66
62
79
86
经验分布图:直方图的制作适合于总体为连续分布的场合。对于一般的总体分布,若要估计它的总体分布函数,可以采用经验分布函数。
经验分布函数是指根据样本构造的概率分布函数. 设 为一组样本, 定义函数 表示样本中小于或者等于 的样本个数, 则称函数
为样本 为的经验分布函数.
Q-Q图:Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息.