医学统计学的基本内容
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学统计学的基本内容
第一章医学统计学的基本内容
第一节医学统计学的含义
1、医学统计学定义
医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念
一(资料的类型
1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体
根据研究目的所确定的同质的所有观察对象某项变量值的集合
1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本
从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件
可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率
描述随机事件发生可能性大小的数值,记作,,其取值范围0?P?1,一般用小数表示。
,,0,事件不可能发生必然事件(随机事件的特例);,,1,事件必然发生;,?0,事件发生的可能性愈小;,?1,事件发生的可能性愈大
六、小概率事件
习惯上将,?0.05或,?0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量
参数:总体指标,如总体均数、总体率,一般用希腊字母表示
统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示
八、学习医学统计学的方法
1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;
2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
第三节统计工作的基本步骤
统计设计收集资料整理资料分析资料
一、统计设计
1、调查设计
2、实验设计
(详见第十三章)
二、收集资料
资料来源
(1)统计报表
(2)日常医疗工作原始记录和报告卡
(3)专题调查
三、整理资料
1(目的将收集的原始资料系统化、条理化,便于进一步计算和分析 2(整理分组方式
(1)性质分组
(2)数量分组
三、分析资料
1、统计描述
2、统计推断
第四节统计图表
一、统计表
1、统计表的作用
代替冗长的文字叙述,便于计算、分析和对比。
2、统计表的结构
1)标题
2)标目横标目(主语):说明表各横行数字的涵义,通常列在表的左侧
纵标目(谓语):说明表各纵栏数字的涵义
主语和谓语连贯起来能读成一句完整而通顺的话
3、统计表的种类:
1)简单表:只按单一变量分组
2)组合表:按两个或两个以上变量分组
某地1980年男、女HBsAg阳性率
性别调查数阳性数阳性率(%)
男 4234 303 7.16
女 4530 181 4.00
合计 8764 484 5.52
4、列表原则:重点突出,简单明了;主谓分明,层次分明
5、统计表的基本要求:
1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。
常见的缺点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。
2)标目:文字简明扼要,有单位的标目要注明单位。
常见的缺点:标目过多,层次不清
3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线外,其余线条一般均省去。
表的左上角不宜有斜线。
4)数字:
A、数字一律用阿拉伯数字表示
B、同一指标的小数位数应一致,位次对齐
C、表内不宜留空格,暂缺或未记录,用“…”表示,无数字,用“—”表示,数字为0,填写0
D、绝对数太小而无法计算指标,则用“…”代替。
5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。
二、统计图
1、统计图作用:
通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。
但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。
2、常见统计图种类:
条图、百分条图,圆图,线图,半对数线图,直方图,散点图 3、制图的基本要求:
1)按资料的性质和分析目的,选用适合的图形
2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。
3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。
横轴与纵轴坐标长度比例一般为5:7
4)比较不同事物,用不同线条或颜色表示,并附上图例说明。
4、常见统计图适用范围及其绘制要点
1)条图:
(1) 适用范围:相互独立的资料,常用形式:单式和复式
(2)绘制要点:
A(用等宽的直条的长短反映各指标的数量大小。
B(纵轴的尺度必须从0开始。
C(各直条之间的间隙应相等,一般将比较的指标按大小顺序排列。
2)百分条图:
(1)适用范围:构成比资料
(2)绘制要点:
A(将长条全长为100%,
B(将各百分构成比在长条上分割若干段,
C(各段按大小顺序排列。
3)圆图
(1)适用范围:构成比资料
(2)绘制要点:
A(将圆面积为100%,
B(将各百分构成比乘以3.6度,变为圆心角度数,C(在圆上绘出各扇型面积
D(各扇型面积按大小顺序排列。
4)普通线图
(1)适用范围:连续性资料
(2)绘制要点:
A(纵横轴均用算术尺度,
B(纵横轴尺度比一般为5:7
C(相邻两点用直线连接。
(3)意义:反映事物的变化趋势。
5)半对数线图
(1)适用范围:连续性资料
(2)绘制要点:
A(横轴用算术尺度,纵轴用对数尺度,
B(纵横轴尺度比一般为5:7
C(相邻两点用直线连接。
(3)意义:反映事物的变化速度。
6)直方图
(1)适用范围:计量的频数表资料
(2)绘制要点:
A(横轴表示被观察事物,纵轴表示频数或频率,
B(用等宽的矩形面积表示各组段的频数或频率
7)散点图:
(1)适用范围:双变量资料
(2)分析目的:用点的密度程度和趋势表示两变量间的相关关系
(3)绘制要点(见第五章)
第二章数值变量(计量)资料的统计分析
第一节计量资料的统计描述
一、计量资料的频数分布 (一)频数表的编制
1、求极差(全距)
,,最大值,最小值
,132.5-108.2,24.3
2、求组距(i)
i,极差/组数,24.3/10,2.4?2
3、分组段
原则:第一组段包括最小值,最后组段包括最大值。
每一组段都有上限和下限
上限:组段的终点(最大值)
下限:组段的起点(最小值) 4、列表划记
(二)频数分布的特征
1、集中趋势:数据向某一数值集中的倾向
2、离散趋势:数据的数值大小不等的倾向
(三)频数分布的类型
1、对称分布: 集中位置在中间,左右两侧频数大体对称
2、偏态分布:
(1)正偏态:集中位置偏向数值小的一侧;
(2)负偏态:集中位置偏向数值大的一侧 (四)频数表的用途:
1、揭示资料的分布特征和分布类型
2、便于进一步计算指标和统计分析
3、便于发现特大或特小的可疑值
二、集中趋势的描述
(一)常用平均数的种类:
1、算术均数(简称均数)
2、几何均数
3、中位数
(二)算术均数(均数)
样本均数用X表示,总体均数用μ表示
1、适用范围:对称分布,尤其是正态分布的资料
2、计算方法:
(1)直接法 X,?X / n
(2)加权法适用于频数表资料
X,?fX / ?f
其中 X,组中值,(上限,下限)/ 2
f,频数
(三)几何均数(简记为G)
1、适用范围:
(1)等比级数资料,如血清滴度资料
(2)对数正态分布资料
2、计算方法:
(1)直接法
G,log-1(?logX/n)
(2)加权法
G,log-1(?flogX/?f)
(四)中位数(简记M)
1、中位数的定义:
中位数: 将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。
在全部观察
值中,大于和小于中位数的观察值的个数相等。
2、中位数的适用范围:
(1)偏态分布资料
(2)分布不明资料
(3)分布末端无确定值资料(开口资料)
理论上,中位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是
开口资料。
在对称分布资料中,M,X
3、计算方法:
(1)直接法:适用于观察数少资料
n为奇数时, M,X(n+1)/2
n为偶数时, M,(Xn/2,X(n/2+1))/2
(2)频数表法:适用于频数表资料
步骤:?从小到大计算累计频数和累计频数;
确定中位数所在组段;
计算中位数M
M,LM,iM/fM(n/2,?fL)
LM,M所在组段的下限
iM,M所在组段的组距
fM,M所在组段的频数
fL,小于L各组段的累计频数
M在8~组段
L,8
i,4
fX,48
fL,26
n=108
M,L,i/fX(n/2,?fL)=10.33
(五)小结: 常用平均数的意义及其应用场合
平均数意义应用场合
均数平均数量水平最适用于对称分布,特别是正态分布
几何均数平均增(减)倍数等比资料或对数正态分布
中位数位次居中的观察值 (1)偏态分布,(2)分布不明,
(3)分布末端无确定水平
三离散趋势的描述
甲组 26, 28, 30, 32, 34. X甲,30
乙组 24, 27, 30, 33, 36. X乙,30
丙组 26, 29, 30, 31, 34. X丙,30
(一)反映离散程度的常用指标:
1、极差
2、四分位数间距
3、方差
4、标准差
5、变异系数
(二)极差(全距)R
1、计算公式:R,最大值,最小值
2、意义:R愈大,离散度愈大,R愈小,离散度愈小。
3、优点:计算简单,意义明了
4、缺点:(1)不能反映每一个观察值的变异;
(2)样本例数越大,R可能越大;
(3)R抽样误差大,不稳定。
(三)四分位数间距(简记Q)
1(百分位数(记作PX)
(1)定义:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,
理论上有x,的观察值比它小,有(100-x),的观察值比它大。
P50分位数也就是中位数。
(2)计算步骤与公式
从小到大计算累计频数和累计频数;
确定百分位数所在组段;
计算百分位数Px
Px,L,i/fx(n.x,,?fL)
L,Px所在组段的下限
i,Px所在组段的组距
fx,Px所在组段的频数
fL,小于L各组段的累计频数
如计算P25
P25 在8~组段
L25=8,i25=4 ,f25=48,?fL,108,n=108
P25,L25,i25/f25(n.25,,?fL)=8.083 计算P75
P75 在12~组段
L75=12,i25=25 ,f75=4,?fL,74,n=108
P75,L75,i75/f75(n.75,,?fL)=13.120 2. 四分位数间距
(1)计算公式: P25: 下四分位数简记QL
P75: 上四分位数简记QU
四分位数间距Q,QU,QL
=13.120-8.083
=5.037
(2)意义:中间一半观察值的极差,与R意义相似。
(3)特点:
A.比R稳定,但仍未考虑每一个观察值的变异;
B.常用于描述偏态资料的离散度。
(四)方差(总体方差简记σ2,样本方差简记S2)
一组观察值的离均差平方和,取其均数,即方差。
1、计算公式:
2x(,,),2,,
N
2(x,x),2s,
n,1
2、意义: 方差越大,离散度越大;
方差越小,离散度越小。
(五)标准差(总体标准差简记σ,样本标准差简记S)
1、定义:方差的开方,即标准差。
2x(,,),,,
N
2(x,x),s,
n,1
2、意义:与方差的意义相同
3、样本标准差计算方法:
(1)直接法:
22x,(x)/n,,s,
n,1
(2)加权法:
22fX,(fX)/f,,,s,
f,1,
4(应用:
(1)用于表示正态或近似正态分布资料的离散度;
(2)结合均数描述正态分布的特征;
(3)计算标准误。
(4)计算变异系数
(六)变异系数(简记CV)
1、计算公式: CV,S/X×100,
2、用途:
(1)比较度量衡单位不同的多组资料的变异度
(2)比较均数相差悬殊的多组资料的变异度
例1
身高:X=166.06cm , S=4.95cm
体重:X=53.72kg , S=4.96kg
身高CV= 4.95cm/166.06cm×100%=2.98%
体重CV=4.96kg/53.72kg×100%=9.23%
例2
表2.6 某地不同年龄男子身高(cm)的变异程度年龄组人数均数标准差变异系数(%) 3-3.5岁 300 96.1 3.1 3.2
30-35岁 400 170.2 5.0 0.3
3、CV特点:没有单位,是相对数,便于资料间的比较。
第二节正态分布和参考值范围的估计一、正态分布
(一)正态分布图形
两头低,中间高,左右对称,呈钟型的单峰曲线。
作u变换后:
u = (X,μ)/ σ
正态分布变成μ,0,σ,1 的标准正态分布。
(二)正态分布特征
1、曲线在横轴上方均数处最高;
2、以均数为中心,左右对称;
3、正态分布有两个参数:
(1)μ: 位置参数,确定曲线位置
当σ一定时,μ越大,曲线越向右移动;μ越小,曲线越向左移动。
(2)σ: 离散度参数,决定曲线的形态:
当μ一定时,σ越大,表示数据越分散,曲线越“胖”;σ越小,表示数据越集中,
曲线越“瘦”。
4、正态分布曲线下的面积有一定的分布规律。
二、正态分布曲线下的面积分布规律。
以曲线下总面积为100%,则有:
1、μ?1σ的区间占总面积的68.27,,即μ?1σ的区间内包含的观察值个数占观察值总
个数的68.27%。
1、μ?1.96σ的区间占总面积的95,,即μ?1.96σ的区间内包含的观察值个数占观察值
总个数的95%。
3、μ?2.58σ的区间占总面积的99,,即μ?2.58σ的区间内包含的观察值个数占观察
值总个数的99%。
正态分布的应用
1(估计频数分布情况
2(估计参考值范围
三、参考值范围的估计
1(参考值范围意义:
参考值范围(亦称为正常值范围)是指正常人的解剖、生理、生化等各种指标的波动
范围。
它主要用于划分正常与异常的界限。
2(正常值范围制定的一般原则
(1)抽取足够数量的正常人作为调查对象
A(“正常人”,不是指任何一点小病都没有的人,而是指排除影响被研究指标的疾病
和因素的人。
如制定SGPT(谷丙转氨酶)正常值范围,正常人的条件是:
a.无肝、肾、心、脑、肌肉等疾患;
b.近期无服用损肝的药物(如氯丙嗪,异烟肼)
c.测定前未作剧烈运动。
B(正常值范围制定所需的样本例数,一般要求 n>100
(2)确定是否分组制定参考值范围
(3)确定取单侧还是双侧正常值范围。
A(白细胞数过高和过低均属于异常,则需同时制定正常值范围的下限(最小值)和
上限(最大值),称双侧正常值范围。
B(肺活量只过低为异常,只需制定正常值范围的下限; 尿铅只过高为异常,只需制
定正常值范围的上限;均称单侧正常值范围。
(4)选定适当的百分界限。
正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。
这个绝大多,习惯
上指正常人的80,、90,、95,、99,(最常用是95,)。
那么,在正常值范围之外的正常
人有:
单侧: 20,、 10,、 5,、 1,
双侧每侧: 10,、 5,、 2.5, 0.5,
根据所选定的百分界限,会造成假阳性或/和假阴性。
如SGPT,正常值单侧95,上限为146单位(King法)
按该范围,5,的正常人(>146)被错判为异常,称假阳性;
而肝功能异常者中,也可能有<146者,按该范围错判为正常,称假阴性。
显然,上限值提高,假阳性减少,假阴性增多;
上限值降低,假阳性增多,假阴性减少; (5)选择适当制定方法。
3、正常值范围常用制定方法
(1)正态分布法.
A(适用范围: (近似)正态分布或对数正态分布资料
B(计算公式:
双侧 95, X ? 1.96S
99, X ? 2.58S
单侧上限 95, X , 1.645S
99, X , 2.326S
下限 95, X , 1.645S
99, X , 2.326S
例 1 14岁女孩身高95%参考值范围是:
X ? 1.96S=143.08?1.96×6.58
=(130.18~155.98)
(2)百分位数法
A(适用范围:
1、偏态分布资料
2、开口资料
B(计算公式:
双侧 95, P2.5,P97.5
99, P0.5,P99.5
单侧上限 95, P95
99, P99
下限 95, P5
99, P1
第三节计量资料的统计推断
一、均数的抽样误差与标准误
一、均数的抽样误差概念
由于总体中存在个体变异,所以由抽样得到的样本均数与总体均数之间存在差异,这种差异称均数的抽样误差。
在抽样研究中,抽样误差是不可避免的,但可以估计其大小。
二、中心极限定理
1、在正态总体中,随机抽取例数为n的样本,样本均数X服从正态分布;
2、在偏态总体中随机抽样,当n足够大时(n>50),X也近似正态分布;
3、从均数为μ,标准差为σ的正态或偏态总体中,抽取例数为n的样本,
样本均数X的总体均数仍为μ,标准差为σx
三、标准误意义及其计算方法
1、意义: 说明均数抽样误差大小的指标,用σx表示。
σx越大,均数抽样误差越大;反之,σx越小,均数抽样误差越小。
2、计算公式:
,,,xn .........(理论值)
ss,xn ...........(估计值)
ssnsxx 与成正比,与成反比,可以通过增加n减小。
3.均数的标准误的用途:
(1)说明均数抽样误差大小,反映均数的可靠性。
σx 越大,用样本均数推论总体均数越可靠,反之亦然
(2)估计总体均数的可信区间
(3)用于进行假设检验
二、 t分布
(一)t分布含义:
,,uxXX由于呈正态分布N(、),则可以将一般正态变量变换成标准正态变量: ,(X,)
u,
,x
将一般的正态分布变换为标准正态分布N(0、1)。
s,uxxX 在实际应用中,往往未知,用代替,则只能对做t变换而不是变换: (X,,)(X,,)t,
ssnX =
X每个可以算出一个t值,t值的分布称t分布。
(二)t分布特征:
1、以0为中心,左右对称的单峰分布;
2、t分布的形态与自由度ν有关:
ν越小,t分布曲线峰部越低平而尾部翘得越高;(t分布与u分布相差较大,即相同的曲线下面积,t值>u值)
ν逐渐增大,t分布逼近标准正态分布;
ν,?,t分布,标准正态分布。
(同样的曲线下面积,t值=u值)
自由度不同,t分布曲线形态就不相同,因此t分布是一簇曲线,则就是说,自由度不同,相同的t值所对应的面积不同,或说,出现该t值的概率不同。
(三)t值表
对应于每一自由度取值,就有一条t分布曲线,每条曲线都有自身曲线下t值的分布规律,相同曲线下面积所对应的t值不同,计算t值较为繁杂。
为此,统计学家已制成t值表,通过查表即获得相应的t值。
查表须注意:
,, 1、横标目(左边第一列)为自由度(),纵标目为概率(P或),也就是t界值以外单
,,侧或双侧尾部的面积占总面积的百分比,表中的数字就是对应于和的t界值,用tα,ν表示;
2、t值有正负值,由于t分布是以0为中心的对称分布,故表中只列正值,查表时,不管t值正负只用绝对值;
3、当ν一定时,t值越大,,越小;
4、当,一定时,ν越大,t值越小;ν,?时,t,u;
5、当ν和t值一定时,双侧,,2倍单侧,。
即双侧tα,ν,单侧tα/2,ν。
例ν=10时:
t0.05,10 单侧 =1.812
即 P(t?-1.812)=0.05 或P(t?1.812)=0.05
t0.05,10 双侧 =2.228
即 P(t?-2.228)+P(t?2.228)=0.05
三、总体均数的估计
(一)估计方法:
1、点值估计:用样本均数直接作为总体均数的估计值
2、区间估计
(二)总体均数的区间估计
1、定义:按一定的概率(1,α)确定包含未知总体均数的可能范围。
所确定的范围称为总体均数的可信区间(或置信区间,CI);1,α称可信度,最常用双侧95%。
2、估计方法:
(1)当σ未知,而且样本例数n较小(n<50)时,按t分布原理估计:
sxX ?tα,ν.
(2)当σ已知,或σ未知但样本例数足够大(n>50)时,按标准正态分布原理估计:
A(σ已知:
,n,nXX (,uα. ,,uα.) uα为u界值,
,n,X uα.
B(σ未知但n足够大(n>50):
SnSnXX (,uα. , ,uα. )
sn,X uα.
按标准正态分布原理估计总体均数可信区间时,熟记下列常用区间:
,n,X 95%总体均数可信区间: 1.96
sn,X 或 1.96
,n,X 99%总体均数可信区间: 2.58
sn,X 或 2.58
X 例9.10 n=20, =118.4mmHg, s=10.8 mmHg, 估计其95%可信区间。
ssxxX X (,tα,ν. , ,tα,ν. )
10.8
s20x t0.05,19=2.093 ==2.41
(118.4,2.093×2.41 , 118.7+2.093×2.41)
(113.3,123.5)mmHg
X 例 n=200, =3.64mmol/L, s=1.20mmol/L, 估计其95%可信区间。
sn,X uα.
1.202001.20200 (3.64- 1.96× ,3.64+1.96×)
(3.47,3.81)mmol/L
3、可信区间内涵义
以95%总体均数可信区间为例:
有95%的可能所计算出的区间包含了总体均数,即估计正确的概率为95%,错误5%。
4、可信区间两个要素:
(1)准确度:反映在可信度(1-α)的大小。
1-α越接近1,越准确。
如可信度99%比95%准确。
(2)精确度:反映在区间范围宽窄。
范围越摘越好。
9,,可信区间精度优于,,,。
在n确定的情况下,准确度?,精确度?。
在兼顾准确度和精确度时,一般取95%可信区间。
在可信度确定的情况下,增加样本例数,可提高精确度。
5、可信区间与正常值范围区别:
(1)意义不同:正常值范围是指绝大多数观察值在某个范围; 可信区间是指按一定的可信度估计总体参数(均数)可能所在的范围;
(2)计算公式不同
SXX 可信区间?uα. (大样本)
X 正常值范围?uα.S
前者用标准误,后者用标准差。
(3)用途不同:可信区间用于估计总体均数,参考值范围用于判断观察对象某项指标正常与否。
四、假设检验的基本思想和步骤
(一)提出问题:
例:根据大量调查的资料,已知健康成年男子的脉搏均数为72次/分。
某医生在山区随机抽取了25名健康成年男子,得其脉搏均数为74.2次/分,标准差为6.5次/分。
问能否认为该山区成年男子的脉搏数高于一般人,
,,0 本研究目的是判断是否>(72次/分)。
由于存在抽样误差,来自某一总体的随机
,X样本其样本均数()与总体均数()往往不等;从同一总体中抽取的两个随机样本的样本
均数也往往不同。
因此,在比较一个样本均数与一个总体均数的差别,或比较两个样本均数的差别时,需要判断这种差别的性质和意义,造成这种差别有两种可能:
(1)总体均数不等(来自不同总体),有本质差别;
(2)总体均数相等(来自相同的总体),其差别由抽样误差所致,无本质差别。
要判断属于那种可能,需要通过假设检验来回答。
(二)假设检验原理(基本思想)
要检验两指标的差别是由抽样误差引起的,还是由于总体均数不同所致,运用反证法。
首先建立检验假设,假设样本来自同一总体,在此假设的基础上计算有关的统计量,根据统计量的大小来判断假设成立的概率的大小。
一般把概率P?0.05的事件称为小概率事件,小概率事件在一次观察中可以认为是不会发生的,如与这原则不符,则认为原先的假设是不正确的,就是说“假设”不能成立,则拒绝这个“假设”。
否则不拒绝原来的“假设”。
这就是假设检验的基本思想。
(三)假设检验的一般步骤
A(建立假设
两种假设
(1)检验假设(无效假设)用H0表示: 即假设两总体均数相等,差别仅仅由于抽样误差所致;
(2)备择假设用H1表示: 是与,0对立的假设,当,0 被拒绝,则接受,1。
2、确定单双侧检验(常用双侧检验)
根据研究目的和专业知识还要确定是双侧检验还是单侧检验。
若目的是推断两总体是否不等(如是否μ?μ0),不管是μ,μ0还是μ,μ0,都是我们所关心的,则用双侧检验,此时,0 :μ,μ0,,1:μ?μ0;若从专业知识已知不会μ,μ0(或不会μ>μ0),目的是推断是否μ,μ0 (或μ,μ0),则用单侧检验,此
时,0:μ,μ0,,1:μ,μ0(或μ,μ0)。
注意:单侧检验更容易得到有统计学意义的结果,因此,做单侧检验要通过专业知识来确定,否则,一律做双侧检验,双侧检验更稳妥。
3(确定检验水准
,, 检验水准用表示,是拒绝或不拒绝,0的概率标准,也就是小概率事件标准,是人为选定的概率值,一般取α,0.05(根据需要也可取0.2、0.15、0.1、
0.01等)。
B、选定检验方法和计算统计量
根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根据样本资料计算相应的检验统计量。
不同的检验方法要用不同的公式计算现有样本的检验统计量(t ,u,F值)。
检验统计量是在H0成立的前提下计算出来。
C、确定,值
,值是指在,0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。
P也可以通俗地说,P是指H0成立的概率大小。
用计算所得的检验统计量(t、u值)与相应的界值比较,确定,值。
D、作出推断结论
假设检验的结论:
(1)统计学结论(拒绝或接受,0 ,即有无统计学意义);
(2)专业结论。
2、推断结论方法
(1) 当P?α时,结论是:拒绝H0,接受H1(差别有显著意义或有统计学意义);
(2)当P>α时,结论是:不拒绝H0。
(差别无显著意义,或无统计学意义);
作出上述推断的理由
(1) 如果,?α,则按α水准拒绝,0 ,接受,1 。
因为抽取一个样本,仅代表
一次试验,现,?α,为小概率事件,小概率事件在一次试验中竟然发生,与概率理论的一个基本原则:小概率事件在一次试验中不会发生产生矛盾,因此拒绝,0 。
(2) 如果,>α,则按α水准不拒绝,0 ,因为概率较大,没有理由拒绝,0 ,
认为其成立。
所以,研究者只是在概率上从,0 与,1 两者中选择一个较为合理的判断。
由此可见,假设检验所作出的结论是具有概率性质的,不是绝对的肯定或否
定。
不论拒绝或不拒绝H0 都可能发生错误。
拒绝实际上是成立的H0,这类“弃真”的错误称?型错误或第一类错误。
不拒绝(接受)实际上是不成立的H0,这类“存伪”的错误称?型错误或第二类错误。
即拒绝H0,犯?型错误;接受H1,犯?型错误。
两类错误的关系
第一类错误的概率为α,第二类错误的概率为β
α越大,β越小,α越小,β越大。
第四节 t检验和u检验。