数据描述性分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 2) 因为np 18 0.25 4.5,
x0.25位于第 4.5] 1 5处, [ 即有x0.25 145. ( 3) 因为np 18 0.5 9, x0.5 是这组数中间两 1 个数的平均值,即有x0.5 (157 162) 159.5. 2
数据集的箱线图是由箱子和直线组成的图形,
表示位置的还有:
中位数(median):将数据由小到大排序后处于中间位置的数值。 当样本容量n为奇数时,中位数唯一确定; 当样本容量n为偶数时,中位数定义为中间两个数的平均值。
表示变异程度的还有:
极差(range):x1, x2, , xn的最大值与最小值之差。 方差(variance):标准差的平方s2。 变异系数C.V =( 标准偏差 Std÷ 平均值 Mean )× 100%
样本:随机取值的一组数据;
一组相互独立的、同分布的随机变量。
数据的整理
北京地区SARS患者的统计数据(截至2003年5月5日)
年龄
人数 比例
10岁以下 11-20岁
24 1.27% 145 7.64%
21-30岁
677 35.69%
31-40岁
382 20.14%
41-50岁
332 17.50%
51岁以上 总数
用Matlab画直方图的步骤
1. 决定组数。
2. 用hist画频数分布直方图(histfit)。
求银行柜台高度的频数表、直方图及均值等统计量:
X =[100 110 136 97 104 100 95 120 119 99 ... % 输入表2数据,...为延续符号 105 95 117 109 140 121 122 131 108 120 ... 115 112 130 116 119 134 124 128 115 110 ... 118 117 114 106 110 119 127 119 125 119 ... 126 113 115 108 93 116 102 122 121 122 ]; [N,Y]=hist(X), % 频数表 hist(X), % 直方图 x1=mean(X),x2=median(X) % 各个统计量 x3=range(X),x4=std(X) x5=skewness(X),x6=kurtosis(X)
练习 为了了解一大片经济林生长情况,随机测量其中的100 株的底部 周长,得到如下数据表(单位:cm),(1)编制频
率分布表;(2)绘制频率分布直方图
135 125 109 105 129 111 129 99 102 123 98 97 124 123 126 89 99 101 108 119 102 117 87 111 97 110 90 116 117 98 110 113 131 103 100 121 99 97 99 121 99 110 97 105 115 80 121 102 118 101 121 92 102 92 111 120 123 108 106 113 110 102 123 114 106 121 107 101 119 102 96 109 104 108 117 104 111 95 97 103 100 104 104 104 104 108 91 107 126 104 103 112 128 102 109 118 100 101 108 108
10
8
6
4
设计在这个范围内,会得到
大多数顾客的满意。
2
0 90
95
100
105
110
115
120
125
130
135
140
柜台高度直方图
频数表和直方图给出某个范围的状况,无法直接给出具 体值,如上例关于确定柜台高度的问题
均值(mean) 1 n x xi 115.26 n i 1
可作为设计柜台高度的参考值 样本均值描述了数据取值的平均位置,计算简易 但易受异常值的影响而不稳健
标准差(std)
描述数据的分散程度(统计上称为变异) 样本x=(x1, x2, , xn)的标准差(Standard deviation)为:
1 n 2 1/ 2 s [ ( xi x ) ] n 1 i 1
统计量:由样本加工出来的、集中反映样本数量特征的函数。
三类统计量:表示位置的,表示变异程度的,表示分布形状的。
表示分布形状的:
1 n g 1 3 ( xi x ) 3 偏度(skewness):分布对称性 ns i 1 1 n g 2 4 ( xi x ) 4 峰度(kurtosis ):分布形状 ns i 1
样本的经验分位数(prctile):分布形状
表示两组数据线性相依程度的:
它是基于以下五个数的图形概括:
中位数M, 最小值 Min, 第一四分位数 Q1,
第三四分位数 Q3和 最大值 Max .
它的作法如下: (1) 画一水平数轴,在轴上标上 Min,Q1, M, Q3, Max. 在数轴上方画一个上、下侧平行于数
轴的矩形箱子,箱子的左右两侧分别位于 Q1,Q3
的上方. 在M点的上方画一条垂直线段.
3. 确定分点。 4. 将数据以表格的形式列出来。 5. 画频数分布直方图。
柜台高度频数表
中点 95.35 100.05 104.75 109.45 114.15 118.85 123.55 128.25 132.95 137.65
频数 4
4
3
6
12
8
12
5
4
2
2
推测出总体的某些简单性质。 如上表所示,选择柜台高度 在107.10至125.90的有31人, 占总人数的62%,柜台高度
· Å Þ Ö ± À Ã Ç · Þ Ö È ± Õ À Ç Ñ Þ Ö
折线图 能清楚 地反映事物 的变化情况。
À
À Ã
/¼ Ó
频数直方图 能够显示数据的分 布情况。
画直方图的步骤
1. 决定组数。 2. 找出最大值和最小值,计算极差和组距。 3. 确定分点。 4. 将数据以表格的形式列出来。 5. 画频数分布直方图。
x([np ]1) ,
2
0 当 特别, p 0.5时,.5分位数 x0 .5也记为Q2或
M称为样本中位数,即有
x0.5 1 [ x( n ) x( n 1) ], 2 2 2
n ([ ]1 ) 2
x
,
当np不是整数, 当np是整数.
0.25分位数x0.25称为上四分位数, 又记为Q1; 0.75分位数x0.75称为下四分位数, 又记为Q3 .
100 126 118 105 115
99 122 119 120 110
基本概念
• • • • 总体--研究对象的全体。如所有顾客感觉舒适的高度 个体--总体中一个基本单位。如一位顾客的舒适高度 样本--若干个体的集合。如50位顾客的舒适高度 样本容量--样本中个体数。如50
顾客群体的舒适高度~随机变量X,概率分布F(x); n位顾客的舒适高度{ xi, i= 1,…n} (样本)~ 相互独立的、分布均为F(x)的一组随机变量。
例
设有一组容量为18的样本如下(已经排过序) 122 126 133 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212
求样本分位数:x0.2,x0.25,x0.5 .
解
(1) 因为np 18 0.2 3.6,
x0.2位于第 3.6] 1 4处,即有x0.2 x ) 140. [ (4
数据描述性分析
一个实际问题
某银行为使顾客感到亲切以吸引更多的资金,计划对柜台 的高度进行调整。银行随机选了50名顾客进行调查,测量每个 顾客感觉舒适时的柜台高度,表2为得到的数据。银行怎样依据 它确定柜台高度呢? 50顾客感觉舒适高度(单位:厘米) 110 136 97 104 100 95 120 119 113 117 95 112 115 114 117 130 108 106 109 116 93 110 140 119 116 119 121 134 102 127 122 124 122 119 131 128 121 125 108 115
样本协方差(cov):相关性 样本相关系数(corrcoef):相关性
MATLAB数据描述的常用命令
命令 名称 输入
x: 原始数据行向量 k:等分区间数
输出
注意事项
[n,y]=hist(x,k) 频数表
n: 频数行向量 [n,y]=hist(x)中 y: 区间中点行向量 k取缺省值10
hist(x,k)
则只有一个数据满足定义 1o 若np不是整数,
中的两点要求, 这一数据位于大于np的最小整数 处, 即为位于 [np ] 1 处的数.
2o 若np是整数, 就取位于 [np ]和[np ] 1处的
中位数.
综上,
xp
当np不是整数, 1[ x ( np ) x( np 1 ) ], 当np是整数.
Min 102,
Max 150,
利用Matlab作箱线图:boxplot(dataset)
例 下面分别给出了25个男子和25个女子的肺活量 (单位:升,数据已经过排序) 女子组 2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4 3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2 男子组 4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3 5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6.0 6.1 6.3 6.7 6.7 试分别画出这两组数据的箱线图.
337 17.77% 1897 100%
比较直观,比较清晰的结论: 21—50岁的中青年患者大约占总发病人数的 3/4,提醒民众 中青年是易感人群。
频数表和直方图
将数据的取值范围划分为若干个区间,统计这组数据在每个 区间中出现的次数,称为频数,得到一个频数表。
画直方图的步骤
1. 决定组数。
2. 找出最大值和最小值,计算极差和组距。
箱线图(box图)
设有容量为n 的样本观察值 x1 ,x2 , ,xn , 样本
p 分位数 (0 p 1) 记为 x p , 它具有以下的性质:
() 1 至少有100 p个观察值小于或等于 x p ; () 2 至少有100(1 p)个观察值大于或等于 x p .
样本 p 分位数可按以下法则求得. 将 x1 , x2, , xn 按从小到大的顺序排列 x(1) x( 2 ) x( n ) . 成
12 10 8 6 4 2
输出图和下列结果:
0 90
95
100
105
110
115
120
125
130
135
140
柜台高度直方图
N = 4 4 3 6 8 12 5 4 2 2 Y= 95.3500 100.0500 104.7500 109.4500 114.1500 118.8500 123.5500 128.2500 132.9500 137.6500 x1 = 115.2600,x2 =116.5000 x3 =47,x4 =10.9690 x5 = -0.0971,x6 =2.6216
( 2)自箱子左侧引一条水平线 Min; 在同一水平
高度自箱子右侧引一条水平线直至最大值.
例 以下是8个病人的血压(收缩压,mmHg)数
据(已经过排序),试作出箱线图. 102 110 117 118 122 123 132 150
1 解: 因为np 8 0.25 2, 所以 Q1 (110 117) 113.5 2 因为np 8 0.5 4, 所以 x0.5 Q2 1 (118 122) 120. 2 因为np 8 0.75 6, 所以x0.75 Q3 1 (123 132)127.5 2
mean(x) median(x) range(x)
直方图
均值 中位数 极差
同上
x: 原始数据行向量 同上 同上
直方图
中位数 极差
同上
std(x)
var(x) skewness(x)
标准差
方差 偏度
同上
同上 同上
标准差s
方差s2 偏度g1
std(x,1): (3)式 中n-1改成n
var(x,1):同上ห้องสมุดไป่ตู้
kurtosis(x)
峰度
同上
峰度g2
样本数据可视化
条形统计图 60 50 40 30 20 10 0
È Î ³ Æ ¼ É Ð Í ¼ Í
洲
洲
美
欧
非
北
比
条形图 能清楚 地表示出 每个项目的具体 数目。
拉
美
/加
勒
亚
洲
饼图、扇形图 能清楚 地表示出各 部分在总体中所占 的百分比。
Û ß ³ Æ ¼ Õ Ï Í ¼ Í 60 50 40 30 20 10 0