医学统计学 第九章
医学统计学09秩和检验

22
u=
|11186 − 88(216 + 1) / 2 − 0.5 128 × 88 × (216 + 1) /12
(t 3 − t j ) ∑ j (N 3 − N )
= 3.628
C = 1− = 1−
823 − 82 ) + ( 783 − 78 ) + ( 303 − 30 ) + ( 263 − 26 ) ( 216 − 216
9
秩和
A组: - 、±、+、+、+、 ++ 秩和: 1 2 4.5 4.5 4.5 8.5
TA=25
B组: +、++、++、++、+++、+++ 秩和: 4.5 8.5 8.5 8.5 11.5 11.5 TB=53
TA+TB=N(N+1)/2=78
10
秩次:在一定程度上反映了等级的高低; 秩和:在一定程度上反映了等级的分布位置。 对等级的分析,转化为对秩次的分析。 秩和检验就是通过秩次的排列求出秩和,对总 体的分布进行假设检验。
α =0.05。
编秩 ,求秩和T。 确定检验统计量T 若两样本例数不等,以例 数较少者为n1,检验统计量T=T1=560.5。 确定P值,作出推断结论
29
560.55 − 24 × (68 + 1) / 2 − 0.5 u= = 3.4265 24 × 44 × (68 + 1) / 12
(16 3 − 16) + ( 28 3 − 28) + (19 3 − 19) + (5 3 − 5) C = 1− 68 3 − 68
医学统计学-第9章 关联性分析

关于两种属性的关联程度,我们用pearson
列联系数表达:
对于2×2列联表
关联系数r介于
(9-10)(110-1~2) 0.5 = 0.71 之 间, 该值越大,关
联程度越高。
理论上我们还要作总体为列联系数为0的假设 检验,但这个假设等价于以上的χ2检验。
例9-3 为观察行为类型与冠心病的关系,某研究
r的取值范围在±1之间,为正值时,正相关。 为负值时,负相关。 r=0时为零相关。 ρ是总 体相关系数,r是ρ的估计值。 假设是建立ρ的基础上。。。
相关系数的计算
利用例题的资料试计算凝血酶浓度X与凝 血时间Y之间的样本相关系数。
4.相关分析条件
用于双变量正态分布资料, X、Y都是正态分布。
9.2 两个连续随机变量间的相关分析
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
计算结果如下:
九
(9-11)
关联系数为:
关联系数的范围:
其中,R是列联表的行数,C是列联表列数。
双向有序分类资料的关联性检验
医学统计学 第九章 第二十二讲PPT课件

增加量(g)
190
180
170
160
150
140
130
120
110
600
700
800
900
1000
进食量(g)
图9.1 大白鼠进食量与体重增加量的散点图
➢ 直线回归分析在于找出两个变量有依存关系的直线方程, 以确定一条能代表这些数据关系的、最接近各实测点的直 线,使各实测点的与该线的纵向距离的平方和为最小。为 了区别于一般的函数方程,我们称之为直线回归方程
200
170
140
110 650 750 850 950 1050 1150
9.2.2 回归方程的建立与检验
直线回归方程的一般表达式为:
Yˆ abX
a是回归直线在Y轴上的截距 ,即X=0时的值;
b为回归系数,即直线的斜率。 b>0,表示直线从左下方走向右上方,即Y随X的增大而增大; b<0,表示直线从左上方走向右下方,即Y随X的增大而减小; b=0,表示回归直线与X轴平行,即X,Y无回归关系。
0.0005 0.001 636 31
10
1.372 1.812 2.228 2.764 3.169 4.144 4.587
11
1.363 1.796 2.201 2.718 3.106 4.025 4.437
9.2.3 回归方程的应用
1.描述两变量间的依存关系 通过回归系数的假设检验,若认为两变量间 存在着直线回归关系,则可用直线回归方程 来描述两变量间的依存关系
b l XY l XX
(2)假设检验:在同一资料中,r与b值的假设检 验的统计量t值相等,即 tr=tb。
医学统计学9 χ2检验

卡方检验的基本原理
反映实际频数与理论频数的吻合程度可用统计量
A
T T
2
来表示
案例分析
某医院采用甲乙两种方法测定60例结核杆菌阳性率, 如下图。试问这两种检测方法阳性率是否相同。
测定方法 阳性数 阴性数 合计
阳性率
甲法
42
18
60
70.0%
乙法
23
37
60
38.3%
合计
65
55
120
54.2%
错误的方法
根据2*2四格表卡方检验方法进行 可求得 2 =12.62, p<0.001;
2
(ad bc)2n
(a b)(a c)(bd )(c d )
c2
(
29 26 5 2 42
2 5 )( 26 9 )( 2 26 )( 5
9
)
5.49
x2,1 3.84
P 0.05
结论与之相反。
配对四格表资料的 χ2 检验
与计量资料推断两总体均数是否有差别有成组设 计和配对设计一样,计数资料推断两个总体率(构 成比)是否有差别也有成组设计和配对设计,即四 格表资料和配对四格表资料。
若检验假设H0:π1=π2成立,四个格子的实际频 数A与理论频数T 相差不应该很大,即统计量不
应该很大。如果上述统计量值很大,从而怀疑H0 的正确性,继而拒绝H0,接受其对立假设H1,即 π1≠π2 。
这个统计量就称为卡方统计量。
医学统计学 -第09章 卡方检验

0.4 f(x)
v=1
0.3
2分布
0.2
v=4
v=6 v=9
0.1
0.0
0
3
6
9
12
15 x
(2)计算检验统计量
2 (A T )2
T
(41 36.5625)2 (4 8.4375)2 (24 28.4375)2 (11 6.5625)2
36.5625
8.4375
28.4375
6.5625
理论基础:超几何分布,不属于卡方检验
谢谢
表 慢性咽炎两种药物疗效资料
分组
兰芩口服液 银黄口服液
合计
有效
41 24 65
无效
4 11 15
有效率 (%) 91.11
68.57 81.25
合计
45 35 80
问题: 两个总体有效率是否相等?
(1)建立检验假设 H0:π1=2 两药的总体有效率相同 H1:π1≠π2 两药的总体有效率不同 检验水准=0.05
bc
= 1
若b+c<40,采用以下校正公式
2 (| b c | 1)2
= 1
bc
第三节 行×列表资料的2检验
(一)R×C表 最常见的形式是
2×C列联表(一般为2个构成比的比较) R ×2列联表(一般为多个样本率的比较)
R×C列联表2检验的原理与2×2列联表2 检验的原理完全一样
统计量计算公式
合计 40 30 32 102
有效率(%) 87.50 66.67 21.88 60.78
(1)建立检验假设,确定检验水准
H0 :1 2 3
H1
:
1
,
医学统计学题库一

第九章医学统计学的基本内容一、单选题1.以下有关小概率事件的描述,正确的是A、在一次抽样中就会发生的事件B、在一次抽样中发生的概率≤0.05C、在一次抽样中不可能发生的事件D、即使多次抽样也不可能发生的事件E、在多次抽样中发生的概率≤0.052.医学统计学的研究内容是A、样本B、个体C、变量之间的相关关系D、总体E、资料或信息的收集、整理和分析3.医学统计工作的基本步骤是A、搜集资料、整理资料、描述资料、设计B、搜集资料、整理资料、推断资料、设计C、设计、搜集资料、整理资料、分析资料D、统计描述、统计推断、统计设计E、搜集资料、描述资料、推断资料4.用某种新药治疗白血病患者50名,治疗的结果如下死亡恶化好转显效治愈治疗结果369284治疗人数该资料的类型是A、计量资料B、计数资料C、等级资料D、分层资料E、定量资料5.随机样本的特点是A、能消除系统误差B、能消除随机测量误差C、能减少抽样误差D、能消除研究者有意无意带来的样本偏性E、能消除过失误差6.统计学中的总体是指A、任意想象的研究对象的全体B、根据研究目的确定的研究对象的全体C、根据地区划分的研究对象的全体D、根据时间划分的研究对象的全体E、根据人群划分的研究对象的全体7.为了由样本推断总体,样本应该是A、总体中任意的一部分B、总体中的典型部分C、总体中有意义的部分D、总体中有价值的一部分E、总体中有代表性的一部分8.抽样误差是指A、不同样本指标之间的差别B、样本指标与总体指标之间由于抽样产生的差别C、样本中每个个体之间的差别D、由于抽样产生的观测值之间的差别E、系统误差与过失误差之间的差别9.可以通过增加例数的方法减少的误差是A、系统误差B、随机测量误差C、抽样误差D、过失误差E、以上均无法减少10.关于统计学中的过失误差、系统误差、随机测量误差和抽样误差,正确的是A、4种误差均不可避免B、系统误差和随机测量误差不可避免C、系统误差和抽样误差不可避免D、随机测量误差和抽样误差不可避免E、过失误差和抽样误差不可避免11. P(A)=0时,表示事件A、很可能发生B、极可能发生C、不可能发生D、在一次抽样中不会发生E、已经发生二、判断题1.概率是描述随机事件发生的可能性大小的一种度量,用P表示,其值介于0.01~100之间。
医学统计学-第9章 关联性分析

线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:
第九章 卡方检验

H0 :π1=π2= π3,即三种疗法的有效率相等 H1 :三种疗法的有效率不全相等 α=0.05
χ2 =532(1992/206×481+72/206×51+…+262/144×51-1)
=21.04
υ= ( 3-1)( 2-1) = 2
查χ2界值表:得P<0.005.按 α=0.05 拒绝 H0,接受H1,可 以认为三种疗法治疗周围性面神经麻痹的有效率有差别。
χ2 =∑
(︱A-T︱-0.5)2
T
χ2
=
(︱ad-bc︱-n/2)2 n (a+b)(c+d)(a+c)(b+d)
医学统计学 · 第九章 χ2 检验
例2 某医师用两种疗法治疗心绞痛,结果如表2,问
两种疗法的疗效有无差别?
表2
组 别 甲疗法 乙疗法 合 计
两种疗法治疗心绞痛的效果率
有效 23 27 50 无效 6 (4.42) 3 9 合计 29 30 59 有效率(%) 79.31 90.00 84.75
医学统计学 · 第九章 χ2 检验
H0: H1:
π1= π2 即两种疗法的疗效相等 π1≠ π2 即两种疗法的疗效不等
α=0.05 T=29×9/59=4.42(计算行合计和列合计均为最小的理论数)
2×59 ( 23 × 3 - 6 × 27 - 59/2) χc2 = =0.61 29×30×50×9
(三)、双向无序分类资料的关联性检验
例7 测得某地5801人的ABO血型和MN血型结果如表
7,问两种血型系统之间是否有关联?
表7 某地5801人的血型
ABO 血型 M O A B AB 合计 431 388 495 137 1451 MN血型 N 490 410 587 179 1666 合计 MN 902 800 950 32 2684 1823 1598 2032 348 5801
医学统计学课件--第九章-双变量回归与相关(第9章)

目前“回归”已成为表示变量之间数量依 存关系的统计术语,并且衍生出“回归方 程”、 “回归系数”等统计学概念。
2021/4/11
糖苹胶囊(对照组)降低糖尿病人的空腹血糖值
有无差别。
P.73 例4-2:比较安慰剂组、降血脂新药2.4g
组、降血脂新药4.8g组、降血脂新药7.2g组降
低患者的低密度脂蛋白含量有无差别。
2021/4/11
医学统计学
2
在医学研究中常要分析两变量间或多变 量间的关系:
年龄与血压 药物剂量与动物死亡率 肺活量与身高、体重、胸围和肩宽等
Pearson K(英,1857~1936)1903年搜集了1078
个家庭人员的身高、前臂长等指标的记录,
发现儿子身高(Y,英寸)与父亲身高间(X,英寸)
存在线性依存关系:
Yˆ =33.73+0.516 X 但不少身材高的父亲的儿子成年后身高比其
父亲矮,不少身材矮的父亲的儿子成年后身
高比其父亲高。
Galton F (英,1822~1911 ) 将这种现象称之为
2021/4/11
医学统计学
13
3.6
Y
尿 3.4
肌 酐
3.2
含3
量
2.8
2.6
2.4
4
hat
Y a bX
6
8
10
12
年龄(岁)X
8名儿童的年龄与其尿肌酐含量
2021/4/11
医学统计学
14
14
➢各散点呈直线趋势 ➢但并非均在一条直线上 ➢根据原始数据拟合的直线方程与数理 上二元一次函数方程在内涵上有区别,
医学统计学 第九章

9.2 直线回归
9.2.1直线回归的概念 • 直线回归分析的目的:建立一个线性函数,来描 述两个变量的依存关系。 • 回归分析中两变量的地位是不相同的: 通常把一个变量称为自变量,用X表示;另一个 变量称为应变量,用Y表示。
• 散点图的带状分布有线性趋势 • 直线回归分析在于找出两个变量有依存关系 的直线方程,以确定一条能代表这些数据关 系的、最接近各实测点的直线,使各实测点 的与该线的纵向距离的平方和为最小。为了 区别于一般的函数方程,我们称之为直线回 归方程
• 相关系数的假设检验亦可按υ=n-2,直接查 r rα(υ)时,P 相关系数r界值表(附表),当 < r rα(υ)时,P≤α 。本例r=0.8529, >α ;当 ≥ 按 υ=n-2=12-2=10, 查 r 界 值 表 , r0.01(10)=0.708,因r> r0.01(10),故P<0.01。
9.2.2 回归方程的建立与检验
• 直线回归方程的一般表达式为:
ˆ a bX Y
a是回归直线在Y轴上的截距 ,即X=0时的值;
b为回归系数,即直线的斜率。 b>0,表示直线从左下方走向右上方,即Y 随X的增大而增大; b<0,表示直线从左上方走向右下方,即Y 随X的增大而减少; b=0,表示回归直线与X轴平行,或随X改变 无增catter diagram)直 观地说明。通常以自变量(independent variable)X为横坐标,应变量(dependent variable)Y为纵坐标,在方格坐标中,每对变 量值(X、Y)的交叉点处,描出一个点,就成 为散点图。从散点图上可以粗略地看出,两 个变量间相关的方向和密切程度以及两变量 间是否呈直线关系。
(4) 用回归解释相关:相关系数 r 的平方称为决 定系数,也称为相关指数。公式为:
医学统计学第9章 关联性分析思考与练习参考答案

第9章 关联性分析 思考与练习参考答案一、最佳选择题1. 对简单相关系数作假设检验,)(v t t ,统计结论为( B )。
A. 两变量不相关B. 两变量有线性关系C. 两变量无线性关系D. 两变量不会是曲线关系,一定是线性关系E. 上述说法都不准确2. 计算积矩相关系数要求( C )。
A. Y 是正态变量,X 可以不满足正态的要求B. X 是正态变量,Y 可以不满足正态的要求C. 两变量都要求满足正态分布规律D. 两变量只要是测量指标就行E. Y 是定量指标,X 可以是任何类型的数据3. 对两个分类变量的频数表资料作关联性分析,可用( C )。
A. 积矩相关B.秩相关C. 关联系数D. 线性相关E.以上均可4. 由样本算得相关系数r ,t 检验结果为P <0.01,说明( D )。
A. 两变量之间有高度相关性B. r 来自高度相关的总体C. r 来自总体相关系数为0的总体D. r 来自总体相关系数不为0的总体E. r 来自总体相关系数大于0的总体二、思考题1. 1988年某地抽查0~7岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关,你认为应选用什么统计方法?为什么?教材表9-10 1988年某地抽查0~7岁儿童营养不良患病情况 年龄/岁 0~ 1~ 2~ 3~ 4~ 5~ 6~7 患病人数 98 278 86 29 59 82 34 患病率/%15.711.712.97.48.97.35.1解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不服从正态分布。
2. 请查找最近三年主题为相关分析或关联分析的已发表国内医学文献,至少认真阅读其中3篇(建议分别选取Pearson 、Spearman 相关分析和关联分析各1篇),找出其中不妥之处。
3. 在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结果。
请举一两个实例说明这种现象。
医学统计学-第九章计数资料的参数估计与卡方检验

率的标准误的计算公式:
p
(1-)
n
式中,δp 为率的标准误,π为总体率,n为样本含量
在实际工作中,由于总体率π很难知道,常用样本率P来代 替,故公式变为:
sp
Sp为率的标准误的估计值
p(1 p)
n
p为样本率
n为样本含量
方法: 1.查表法:当样本含量较小(如n≤50),特别是np或n(1-p)较小时,p呈偏态 分布, 可根据样本含量n和阳性数x,查相关统计学教材“百分率的可信区间” 表,求得总体率可信区间。 2.正态近似法:当样本含量足够大(如n﹥50),且样本率p或1-p均不太小, 如np和n(1-p)均≥5时,样本率的分布近似正态分布,可按下列公式计算 :
第二步:计算检验统计量
2 ( A T )2
T
式中: A 为实际频数(actual frequency)T 为理论频数(theoretical frequency)
第三步:确定 P 值,得出结论
x2=9.32
ν=(R-1)(C-1)=(2-1)(2-1) 由 2界值表查得 20.05,1 = 3.84 ,
组别 有效 无效 合计
H0成立下的有效率(%)
中药
T11
T12
160
西药
T21
T22
140
72.7% 72.7%
合计 218
82
300
72.7%
T11 =160 ×72.7%= 160×(218/300)=116.3 T12 =160 ×(1-72.7%)= 160×(82/300)=43.7 T21 =140 ×72.7%= 140×(218/300)=101.8 T22 =140×(1-72.7%)= 140×(82/300)=38.2
医学统计学第9章作业

第九章方差分析三、综合分析题1. 某医生研究不同方案治疗缺铁性贫血的效果,将36名缺铁性贫血患者随机等分为3组,分别给予一般疗法、一般疗法+药物A低剂量,一般疗法+药物A高剂量三种处理,测量一个月后患者红细胞的升高数(102/L),结果如表9-1所示。
问三种治疗方案有无差异?表9-1 三种方案治疗一个月后缺铁性贫血患者红细胞的升高数(102/L)编号一般疗法一般疗法+A1 一般疗法+A21 0.81 1.32 2.352 0.75 1.41 2.503 0.74 1.35 2.434 0.86 1.38 2.365 0.82 1.40 2.446 0.87 1.33 2.467 0.75 1.43 2.408 0.74 1.38 2.439 0.72 1.40 2.2110 0.82 1.40 2.4511 0.80 1.34 2.3812 0.75 1.46 2.402. 在药物敏感试验中,欲比较三种弥散法的抑菌效果,每种方法均采用三种药物,观察其抑菌效果,以抑菌环的直径为观察指标,结果如表9-2所示,试比较三种方法的抑菌效果。
表9-2 三种药物在不同弥散法下的抑菌效果(mm)药物弥散法纸片挖洞钢圈黄芪27.5 24.3 20.0 27.6 24.6 21.026.9 25.0 20.627.3 27.7 20.8大黄20.9 24.6 19.121.2 24.7 19.3 20.5 23.9 18.721.3 24.8 18.5青霉素27.4 22.0 29.6 27.6 21.7 30.2 26.9 21.8 29.5 26.7 22.3 30.43. 某试验研究饮食疗法和药物疗法降低高胆固醇血症患者胆固醇的效果有无差别,随机选取14名高胆固醇血症患者,随机等分为两组,分别采用饮食疗法和药物疗法治疗一个疗程,测量试验前后患者血胆固醇含量,结果如表9-3所示,请问两种疗法降胆固醇效果有无差异。
医学统计学课后案例分析答案:第9章 关联性分析

第9章关联性分析案例辨析及参考答案案例9-1 有研究者以“正常血糖、糖耐量减低及2型糖尿病人群胰岛素抵抗与非酒精性脂肪肝的相关分析”为题,研究了非酒精性脂肪肝的患病率与糖尿病分级(即正常血糖、糖耐量减低和2型糖尿病三级)的关系。
以正常血糖者、糖耐量减低者和2型糖尿病患者为研究对象,年龄、性别可比,无大量饮酒史、肝炎史,脂肪肝的诊断以影像学结果为准。
指标以均数±标准差表示,统计分析采用两组独立样本比较的t检验。
结果发现,三组血糖、胰岛素、血脂水平等和脂肪肝患病率差别有统计学意义(数据及统计结果见教材表9-7),糖耐量减低组与正常血糖组比较P<0.05,2型糖尿病组与糖耐量减低组比较P<0.05。
结论,随着正常血糖向糖耐量减低及糖尿病发展,血糖、血脂、胰岛素抵抗指数及脂肪肝患病率等指标值皆升高并逐渐加重,差异有统计学意义,认为脂肪肝患病率与血糖水平、血胰岛素、血脂、胰岛素抵抗、糖耐量减低和2型糖尿病等成正相关。
教材表9-7 三种血糖水平人群的血生化及脂肪肝患病率组别例血糖/1Lmmol-⋅胰岛素/1Lmmol-⋅三酰甘油/1Lmmol-⋅总胆固醇/1Lmmol-⋅胰胰素抵抗指数/1Lmmol-⋅脂肪肝患病率/% 空腹餐后空腹餐后正常血糖87 5.0±0.55.6±1.07.4±1.824±8 0.9±0.3 3.0±0.9 0.6±0.5 48.3糖耐量减低62 6.5±0.58.2±1.311.4±2.7134±582.1±1.0 4.6±0.8 1.2±0.7 69.42型糖尿病68 8.3±2.612.5±3.416.8±3.2114±442.6±1.5 5.1±0.8 1.9±0.7 83.8经t检验,糖耐量减低组与正常血糖组比较,以及2型糖尿病与正常血糖组比较,各指标比较的P值均<0.01;而2型糖尿病与糖耐量减低组比较,餐后胰岛素两组比较P<0.05,脂肪肝患病率比较P<0.05,其余各指标比较的P值均<0.01。
《医学统计学》第九章X的平方检验

(3 1) (2 1) 2
3. 确定 P 值,作出推断结论
查界值表得 P < 0.05 ,在α=0.05 的检验水准下,拒绝 H0,接受 H1,可以认为三种
疗法的有效率有差别。
医学统计学(第7版)
实例
➢ 例9-6 某研究人员收集了亚洲、欧洲和北美洲,结果见下表,问不同地区人群的血型
1 : 三种治疗方案的总体有效率不全相等
0.05
2. 计算检验统计量,计算 χ2 值:
512
49 2
35 2
45 2
59 2
15 2
254 (
- 1)
100 145 100 109 80 145 80 109 74 145 74 109
2
254 (0.1794 0.2203 0.1056 0.2322 0.3244 0.0279-1)
2
方法。
了解
在小样本情况下的Fisher确切概率法原理及应用, 检验的
2
注意事项。
第一节
四格表资料的 检验
2
医学统计学(第7版)
一、四格表 检验的原理
2
2 检验(chi-square test):英国统计学家Pearson提出的一
种主要用于分析分类变量数据的假设检验方法,该方
法主要用途是推断两个或多个总体率及构成比之间有
2. 计算检验统计量
6 25 3 24 58 / 2 58
0.376
2
2
c
49 9 28 30
3. 确定 P 值,作出推断结论
四川大学医学统计第九章方差分析

不同时间点重复观测值之间存在自相关性,测定时
间有时是等距的、有时是不等距的;
有时部分受试对象在最后的若干个时间点上出现缺
失数据; 观测指标可定量也可定性。
例9.7 临床上为指导脑梗塞患者的治疗和预后, 某研究人员对不同类型脑梗塞患者酸性磷脂(AP)在 不同时间点的变化,进行了如下观察:随机选取三 种不同类型的脑梗塞(短暂性脑缺血发作、脑血栓 形成、腔隙性脑梗塞)患者各8例,于脑梗塞发生的
多个处理组与一个对照组比较
XT X D t S XT X D S XT X D 1 1 MSe ( ) nT nD
六、其他常见设计资料的方差分析
交叉设计的方差分析
交叉设计可分为两阶段交叉设计和多阶段交 叉设计,医学实际工作中应用较多的是前者。 本节介绍两阶段交叉设计的方差分析。
五、多个样本均数间的两两比较
方差分析得出有统计学意义的结论后,
进一步比较各均数间是否彼此均有差异,
需对均数间作两两比较,方法为SNK法和
Dunnet-t法。
SNK检验
所有均数都进行两两比较
XA XB q SX AXB SX AXB MSe 1 1 ( ) 2 nA nB
Dunnett t 检验
利用统计软件得到方差分析的结果,详见下表: 例9.6资料方差分析表
变异来源 总变异
SS
2173.9583
23
MS
F
P
处 理
A B AB 误 差
1094.1250
260.0416 442.0416 392.0418 1079.8333
3
1 1 1 20 260.0416 442.0416 392.0418 53.9917 4.8163 8.1872 7.2611 0.04 0.01 0.01
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9.2 直线回归
9.2.1直线回归的概念 • 直线回归分析的目的:建立一个线性函数,来描 述两个变量的依存关系。 • 回归分析中两变量的地位是不相同的: 通常把一个变量称为自变量,用X表示;另一个 变量称为应变量,用Y表示。
• 散点图的带状分布有线性趋势 • 直线回归分析在于找出两个变量有依存关系 的直线方程,以确定一条能代表这些数据关 系的、最接近各实测点的直线,使各实测点 的我们称之为直线回 归方程
• 相关系数的假设检验亦可按υ=n-2,直接查 r rα(υ)时,P 相关系数r界值表(附表),当 < r rα(υ)时,P≤α 。本例r=0.8529, >α ;当 ≥ 按 υ=n-2=12-2=10, 查 r 界 值 表 , r0.01(10)=0.708,因r> r0.01(10),故P<0.01。
• 如果仅仅研究变量间相互关系的密切程度和 变化趋势,并用适当的统计指标表达,这就 是相关分析。 • 如果要把变量间数量上依存关系用函数形式 表示出来,用一个或多个变量来推测另一变 量的估计值及波动范围,这就是回归分析。
• 回归一词最早由Golton在一项有关父亲与儿子 身高的研究中提出。儿子的高度与父亲的高度 自然是相关的。他发现身材高大的父亲所生儿 子的高度不少要比其父亲矮,而身材矮小的父 亲所生儿子的高度不少要比父亲高;也就是说, 无论是身材高还是矮的父亲所生儿子的身高有 向人群的平均身高回归的趋势,这就是回归的 生物学内涵,后来人们借用回归这个词来描述 通过自变量的数值预测反映变量的平均水平。
9.2.2 回归方程的建立与检验
• 直线回归方程的一般表达式为:
ˆ a bX Y
a是回归直线在Y轴上的截距 ,即X=0时的值;
b为回归系数,即直线的斜率。 b>0,表示直线从左下方走向右上方,即Y 随X的增大而增大; b<0,表示直线从左上方走向右下方,即Y 随X的增大而减少; b=0,表示回归直线与X轴平行,或随X改变 无增减变化。
• 求回归方程的关键是要求a和b的值,根据数 学上的最小二乘法(least square method)原理, 使各实测值Y与回归直线上对应的估计值之差 的平方和为最小,可导出a、b的最小二乘法 估计如下:
( X X )(Y Y ) l b l (X X )
2
XY XX
a y bx
3)相关系数的假设检验 相关系数r是样本相关系数,它是总体相关系 数ρ 的估计值。和其他统计量一样,根据 样本资料计算出来的相关系数也有抽样误 差。在ρ =0的总体中随机抽样,由于抽样 误差的影响,所得r值常不等于零。因此, 在计算得到相关系数后,还不能根据的大 小对X、Y间是否有相关关系作判断,而应 进行r是否来自ρ =0的假设检验。相关系 数的假设检验可用t检验法,其计算统计量 t值的公式为:
r
( X X )(Y Y ) ( X X ) (Y Y )
2
2
l XY l XX lYY
2)计算相关系数 例9-2 现仍用例9-1的资料,试分析大白鼠进食 量与体重增加量之间有无直线相关关系? 1.作散点图,判断是否有线性趋势。从图9-1 可知,两变量有线性趋势,成正相关。 2.列相关系数计算表 3.按公式9-1得相关系数 r
SY X
2 ˆ (Y Y )
n2
t b > t0.001(10) , 查t界值表,t0.001(10)=4.587, P<0.001,按α =0.05水准,拒绝H0,接受H1, 认为在某代乳粉营养价值试验中,大白鼠进 食量与体重增加量之间存在直线回归关系, 即所拟合的样本直线回归方程有意义。
4 . 回归系数的假设检验 (1)回归系数假设检验的意义 所求得的回归方程是否能表达X、Y存在直线关 系,这是回归分析首要考虑的问题 总体回归系数 与样本回归系数b
(2)回归系数的t检验 ,即使X、Y的总体回归系数β 为零(总体并不 存在回归关系),由于存在抽样误差,其样 本回归系数b也不一定为零。因此,当用样本 求得不等于零的回归系数b后,我们还不能立 即认为β ≠0,即X与Y间存在回归关系,必须 考虑回归系数的抽样误差问题,因此需对β 是否为零进行假设,可用按Y服从正态分布的 假定,回归系数的假设可用方差分析或t检验。
第九章 直线相关与回归
• 医学研究中,常常要研究两个或两个以上变 量的关系。如成人的身高与体重、青少年的 身高与年龄、体温与脉搏次数、年龄和血压、 反应物浓度与反应速度、溶液浓度与渗透压 等。相关与回归就是研究这种关系的统计方 法。 • 变量与变量之间的关系,可以分成两种类型: 一种是确定性关系(函数关系),另一种是 非确定性关系。
9.1 直线相关
9.1.1 直线相关的概念 当所研究的两个事物或现象之间,既存在着密 切的数量关系,又不象函数关系那样,能以 一个变量的数值精确地求出另一个变量的数 值,我们称这类变量之间的关系称为相关关 系。 直线相关分析关心的是两个变量间是否有线性 的协同变化的关系、变化的趋势、变化的密 切程度和方向。
9.4.2设计与应用直线相关与回归的注意事项 1 .作相关与回归分析要有实际意义。不要把毫无关 联的两个事物或现象用作相关、回归分析, 2 .对相关分析的作用要正确理解。相关分析只是以 相关系数来描述两个变量间直线关系的密切程度和 方向,并不能阐明两事物或现象间存在联系的本质; 即使存在相关关系,也并不能证明是因果关系 ( 相 关关系中有的是因果关系,有的不是因果关系 ) 。 要证明两事物间的内在联系,必须凭借专业知识从 理论上加以阐明。但是,当事物间的内在联系尚未 被认识时,可根据相关分析的数量关系给理论研究 提供线索。
9.4 直线相关与回归应用时的注意问题 9.4.1直线相关与回归的区别与联系: 一、直线相关与回归的区别与联系 1.区别: (1)在资料要求上,如果X可以精确测量和严格 控制,回归只要求应变量Y作为随机变量且服 从正态分布,此种回归属于Ⅰ型回归;如果X 和Y需要相互推断,则要求X、Y为随机变量且 都要服从双变量正态分布,此资料类型属于 Ⅱ型回归。可以计算两个回归方程:由 X 推 Y 的回归方程;由Y推X的回归方程。
检验假设为: H0:总体回归系数β=0,即大白鼠进食量与体重 增加量间无回归关系。 H1:总体回归系数 β≠0,即大白鼠进食量与体 重增加量间有回归关系。 α=0.05。
检验统计量
tb
b0 Sb
, n 2
式中Sb为样本回归系数的标准误:
SY X Sb l XX
为剩余标准差,亦称标准估计误差 :
• 直线相关的性质可由散点图(scatter diagram)直 观地说明。通常以自变量(independent variable)X为横坐标,应变量(dependent variable)Y为纵坐标,在方格坐标中,每对变 量值(X、Y)的交叉点处,描出一个点,就成 为散点图。从散点图上可以粗略地看出,两 个变量间相关的方向和密切程度以及两变量 间是否呈直线关系。
例9-1 某医师研究某种代乳粉营养价值时,用 大白鼠做实验,得大白鼠进食量与体重增加 量的资料(表9-1)。
表9-1 大白鼠进食量与体重增加量的关系
编 号 进食量(g) 增加量(g) 1 800 185 2 780 158 3 720 130 4 867 180 5 690 134 6 787 167 7 934 186 8 750 133 9 820 165 10 679 145 11 639 120 12 820 150
3.相关和回归都是分析两变量间关系的统计方 法。相关表示相互关系,回归表示从属关系。 与相关分析一样,回归分析前也必须先作散 点图,以判断两变量间的关系是否为线性趋 势,有无离群点等。 4.积差和法相关与等级相关。积差和法相关计 算相关系数 r 适用于正态资料;一般来说,能 用积差和法相关计算的资料不应用等级相关 计算。资料明显呈偏态分布或者原始资料只 能用等级划分或难以判定资料属何种分布的, 才宜按等级相关处理。有关等级相关资料的 处理方法见非参数统计一章。
(4) 用回归解释相关:相关系数 r 的平方称为决 定系数,也称为相关指数。公式为:
l xy l xy / lxx SS回 r lxxl yy l yy SS 总
2
2
2
其值在 0-1 之间。决定系数表示 Y 的变异中可 由 X解释的部分占总变异的比例。因此r2越接 近于1,说明应用相关分析的意义越大,即贡 献越大;相反的意义亦成立。
9.2.3 回归方程的应用 1. 描述两变量间的依存关系 通过回归系数的假设检验,若认为两变量间存在着 直线回归关系,则可用直线回归方程来描述两 变量间的依存关系 2.利用回归方程进行预测 所谓预测就是把预报因子(自变量X)代入回归方程 对预报量(应变量Y)进行估计,其波动范围可按 求y值容许区间的方法计算。 3.利用回归方程进行统计控制 统计控制是利用回 归方程进行逆估计,如果要求应变量Y在一定范 围内波动,可以通过控制自变量X的取值来实现
(1)建立假设,确定检验水准
H0 : 0 H1 : 0
0.05
(2)计算检验统计量
n2 tr r , n 2 2 1 r 12 2 t r 0.8529 5.1667 2 1 0.8529
(3)查表确定p值 P<0.001 (4)做出统计结论 可认为大白鼠进食量与体重增加量之间呈正相 关。
(2)在应用上,相关分析用于说明两变量间的相 互关系,描述两变量X、Y相互之间呈线型关系 的密切程度和方向;回归分析用于说明两变量 间的依存关系,可以用一个变量的数值推算另 一个变量的数值。
2.联系: (1)正负符号:在同一资料中,计算r与b值的符 号应该相同。 (2)假设检验:在同一资料中,r与b值的假设检 验的统计量t值相等,即 tr=tb。 (3)r与b换算关系如下:
190 180 170 160 150
• 图9-1大白鼠进食量与体重增加量的散点图