统计描述与假设检验

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

142.7 134.4 146.8 145.4 148.8 144.7 138.1 137.1 152.9 137.9 138.9 141.2
145.7 148.8 135.1 146.2 140.1 139.3 140.2 147.1 147.9 139.9 137.7 148.9
138.2 137.9 150.3 143.3 150.6 141.9 137.4 142.9 141.8 149.7 138.5 154.0
集中趋势 反映变量值平均的数量水平。 离散趋势 反映变量值相互之间变异的程度。 (2)频数分布的类型 对称分布 集中位置居中,左右两侧的频数基本一致。 非对称分布 集中位置偏向一侧,左右两侧频数不一致。 2、观察离群值 便于发现一些特大、特小的可疑值。
第二节
计量资料的统计描述
一、集中趋势的描述
▪含义 集中趋势是指计量资料中,所有观察值的中
2、在X=μ处有最大值;X越远离μ,曲线位置越低 ;
3、取决于两个重要参数表示方式:
μ :位置参数;
σ:形状参数
表示方式:N( μ ,σ 2)
三、正态分布的面积规律
正态分布曲线下面积分布规律
▪ μ± σ范围内的面积占正态分布曲线下总面积的
68.27%,即有68.27%的变量值分布在此范围内;
▪ μ± 1.96σ范围内的面积占正态分布曲线下总面积的
•计算变异系数
当两组变量值单位不同,或两均数相差较大时,不能 直接用标准差比较其变异程度,需要用变异系数做比较。
•估计变量值的频数分布 •计算标准误
5、变异系数(coefficient of variation, CV)
➢含义 是一个度量相对离散程度的指标。
➢计算 CV S 100% X
例1:某地20岁男子身高均数为166.06cm,标准差为 4.95cm,体重均数为53.72kg,标准差为4.96kg,试比较 身高与体重的变异程度。
3、中位数(median, M)
一组按大小顺序排列的变量值,位次居中的数值即中位数。 ➢适用范围
•变量值呈偏态分布 •分布类型不清 •变量值的一端(或两端)无确定数值—开口型资料
➢计算方法 ▪直接法 变量值个数不多。 ▪频数表法 变量值个数较多,先整理频数表。
二、离散趋势的描述
▪含义 离散趋势是指计量资料所有观察值偏离中
合计
人数(f) 滴度倒数(x)
2
2
11
4
18
8
36
16
22
32
8
64
3
128
100
lgx 0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
flgx 0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216 120.7119
例2:该地新生男婴的平均身高为50cm,标准差为 3.0cm,试比较该地20岁男子与新生男婴的变异程度。
例1: 身高 CV = 4.95/166.06× 100% = 2.98% 体重 CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
的组距,fp是该组段的频数,n是总频数,∑fl是该组
段以前的各组段的累计频数。
四分位数(quartile)
四分位间距(quartile range, Q)
➢含义 统计学将3个特殊的分位数X25%、 X50%、 X75%统称 为四分位数。 X25%:记为Q1,称作第一四分位数; X50% :记为Q2,称作第二四分位数; X75% :记为Q3,称作第三四分位数;
心位置。反映一组同质变量值的平均数量水平。
▪常用指标 算术平均数、几何平均数、中位数
1、算术均数(arithmetic mean)
简称均数(mean),用x及μ表示。
➢适用范围 变量值呈对称分布,尤其是正态分布的计量资料 ➢计算方法
▪直接法 变量值个数不多,直接相加除以变量值个数。 ▪加权法 变量值较多或频数表资料。
第四章
统计描述
第一节
频数分布
一、计量资料的频数分布表
例1 某年某市120名12岁健康男孩身高测量资料
142.3 134.5 145.2 151.1 141.2 143.5 134.7 150.8 125.9 160.9 134.7 129.4
156.6 148.8 141.8 144.0 141.5 139.2 147.3 144.5 132.7 154.2 138.5 142.5
第六章
参数估计
几种重要的连续性随机变量分布:
正态分布 标准正态分布 t分布 见P72第五章第四、五节
正态分布
(normal distribution)
一、正态分布的概念
正态分布是一种连续性随机变量常见而重要的分布。
二、正态分布的特征
1、在直角坐标的横轴(X轴)上方呈钟型曲线,以X=μ为
对称轴左右完全对称,但与X轴永不相交;
•整理频数分布 计算各组段频数、累计频数和累计频率。
表1 120名12岁健康男孩身高的频数分布表
组段


125~
129~
133~
137~
正正正正
141~
145~
149~
153~
157~16 1
合计
频数
1 4 9 28 35 27 11 4
1
120
35
35
30
28 27
25
20
15
10
9
11
5
4
4
4、标准差(standard deviation, SD)
用σ和s表示。
➢ 计算方法
• 直接法 • 加权法
标准差反映变量值变异程度的大小,。
➢ 标准差的应用
• 表示一组变量值变异程度 标准差越大,说明变量值的变
异程度越大,即变量值围绕均数的分布较离散,均数的代 表性较差;标准差越小,表示变量值的变异程度越小,即 变量值围绕均数的分布较密集,均数的代表性较好。
95.00% ,即有95.00%的变量值分布在此范围内;
▪ μ±2.58 σ范围内的面积占正态分布曲线下总面积的9
9.00%,即有99.00%的变量值分布在此范围内;
四、正态分布的应用
➢ 估计医学正常值范围;
• 正常值范围的含义 • 正常值范围的计算公式 x ±us
➢ 质量控制
• x ±2s 上、下警戒值
由抽样而引起的样本均数与总体均数之间的差别。 (抽样研究中不可避免,有两种表现形式)
➢样本均数的抽样分布
从一个正态的总体中进行随机抽样: 各样本均数未必等于总体均数; 各样本均数间存在差异; 样本均数的频数分布仍是以总体均数为中心的正态分布; 样本均数的变异范围较原变量的变异范围小; 随着样本量的增大 ,样本均数的变异范围逐渐缩小。
全距(R)= 160.9-125.9 = 35
•确定组距 为相邻两组段最小值之差。通常以R的1/10进行估计。
组距(i)= 全距(R)/10 = 35/10 = 3.5 可取i =4。
•划分组段
▪每个组段应有一个起始值作为组下限和一个终止值作为组上限 ; ▪第一个组段应包括最小值,最后一个组段应包括最大值; ▪组段数一般取8~15个; ▪为避免相邻两组段界限互相包含,除最末一个组段外,其余组 段只写下限。
为u分布N(0,12) 。
X
实际工作中,由于 未知,用 S 替代,则( X )
X
X
S
不再服从标准正态分布,而服从t分布。
X
t X X , n 1
S X
S/ n
t 分布
(t- distribution) 二、t分布的图形与特征
1、t 分布是一簇对称的、均数为 0 的单峰分布曲线;
132.1 143.6 142.4 145.9 150.0 148.9 146.7 143.3 146.7 144.0 146.5 139.2
135.5 149.0 139.6 144.4 142.1 142.4 143.4 140.2 138.7 134.4 145.4 139.9
•找出全距 即最大值与最小值之差。
2、当自由度 不同时,曲线 的形状不同; 3、 越小,则t值越分散, t 分布的峰部越矮而尾部翘得 越高;随着 增大,t 分布曲线越来越接近于标准正态分布曲 线,当 →∞时, t 分布逼近标准正态分布。
三、 t分布的界值
第一节
抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
➢ 抽样误差的概念
• x ±3s 上、下控制值
表5 常用的u界值表
正常值范围(%)
单侧
双侧
80
0.842
1.282
90
1.282
1.645
95
1.645
1.96
99
2.326
2.576
➢是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
2、几何均数(geometric mean, G)
➢适用范围
•变量值呈对数对称分布 •等比级数资料
➢计算方法
▪直接法 变量值个数不多,直接将其乘积开n次方。
▪加权法 变量值较多或频数表资料。
表4 100名患者抗体滴度的频数分布表
抗体滴度 1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
u X
式中的u值称为标准正态变量,其频数曲线图即为标准正 态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
t 分布
(t- distribution) 一、t 分布的概念
由于样本均数 X 服从总体均数为μ、总体标准差σ为的正
态分布N(μ,σ2) ,因此可同样进行u变换( X ),将其转换
并且将与差值称为四分位间距(quartile range, Q)
➢计算 Q= Q3﹣ Q1
3、方差(variance)
用σ2和s2表示。 离均差的和 离均差的平方和 方差
方差反映变量值变异程度的大小,方差越大,说 明变量值的变异程度越大;方差越小,说明变异程度 越小。
➢优点 全面考虑了一组变量值中的每一个数据。 ➢缺点 将变量值的单位进行了平方。
60.0
100
100.0
100.0


2、等级资料的频数分布表
表3 100名大学生性别的频数分布表
视力等级 差 中 良
合计
频数 8 12 10 30
频率(%) 累计频数 累计频率(%)
26.67
8
26.67
40.00
20
66.67
33.33
30
100.00
100.00


三、频数分布表的作用
1、揭示资料的频数分布特征与类型 (1)频数分布的特征
01
1
125~ 129~ 133~ 137~ 141~ 145~ 149~ 153~ 1 5 7 ~1 6 1
二、计数资料和等级资料的频数分布表
1、计数资料的频数分布表
表2 100名大学生性别的频数分布表
性别 男 女
合计
频数 40 60 100
频率(%) 累计频数 累计频率(%)
40.0
40
40.0
表1 120名12岁健康男孩身高的频数分布表
组段
125~ 129~ 133~ 137~ 141~ 145~ 149~ 153~ 157~161
合计
组中值(X0)
127 131 135 139 143 147 151 155 159
频数(f)
1 4 9 28 35 27 11 4 1 120
fx
127 524 1215 3892 5005 3969 1661 620 159 17172
心位置的程度,反映一组同质变量值相互之间参 差不齐的程度,即离散度或变异度。
▪常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。 ➢优点 计算简单 ➢缺点 仅考虑了资料的最大值和最小值,不能反映 组内其它数据的变异程度。
2、百分位数(percentil百度文库)
141.6 151.3 133.1 156.3 139.5 147.8 145.1 134.9 141.4 147.5 139.6 147.7
142.5 140.8 142.7 141.9 146.4 140.5 145.8 143.6 140.9 136.9 143.5 152.3
130.5 149.8 143.9 140.7 143.8 138.9 147.9 142.3 141.4 148.1 142.9 146.6
➢含义 又是一个位置指标,用Xp%。它表示在按照升序排列 的数列中,其左侧(即小于Xp%侧)的观察值个数在整个样本 中所占百分比为p%,其右侧(即大于Xp%侧)的观察值个数 在整个样本中所占百分比为(100-p)%
➢计算
X p%
L
i fp
(np%
fL)
式中:是百分位数,L是所在组段的下限,i是该组段
相关文档
最新文档