生物统计学 第12讲 拟合优度检验和列联表分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9 16
,
p1
3 16
,
p2
3 16
,
p3
1 16
å c2 = 4 (Oi -Ti )2 = (96-100.69)2 ++ (15-11.19)2 = 2.0651
i=1
Ti
100.69
11.19
df = 4-1 = 3
c2
=
2.0651 C<.3
c2 1-0.05
(3)
=
7.8147
P = P(c2(3) > 2.0651) = 0.556
红米非糯
9
白米糯
pi P( X i)
10
红米非糯
11
红米非糯
X为分类变量
12
红米非糯
13
红米糯
14
红米非糯
…
…
例1(3.25)
17
•频数分析
属性(X) 株数
百分比
红米非糯 红米糯 白米非糯 白米糯 合计
96
37
31
15 179
0.536 0.207 0.173 0.084
•点估计 •条形图
Ti = npi = 179 pi
å c2 = 4 (Oi -Ti )2
i=1
Ti
= (96-100.69)2 + (37- 33.56)2 + (31- 33.56)2 + (15-11.19)2
100.69
33.56
33.56
11.19
= 2.0651
• 例1 计算Ti 、 χ2
26
H0
:
p0
• 类似的问题:庄家有没有作弊
有意义的问题
14
检验互联网老大在12星座是否均匀分布?
H0:生日在1~12月的比例相等 HA:不相等
庄家有没有作弊
H0:骰子数据来自1~6的均匀分布 HA:不均匀
验证
15
实质:对数据出现的概率进行检验。
或者:对数据的分布进行假设检验
检验问题的构造
H0 :数据来自于某分布 HA:数据来自其他分布
参数检验
8
要研究某个医院的某一疾病患者住院日的长短.
46 27 10 68 87 76 125 列1
60 35 73 96 44 238
平均
75.76923
标准误差 15.98403
中位数 68
众数
#N/A
标准差 57.63123
方差
3321.359
中位数 均数
峰度 偏度 区域
5.168526 1.989944 228
u
不拒绝H0时,可以提高α
6
u u1 2 HA : 0.5
P
P 2P(U u )
临界值→ P值
u
u
7
1.总体分布已知:
N ( , 2 ) B(n, p)
P( )
2.关于总体分布的参数作检验:
H0 : 7.2
H0
:
2 1
2 2
H0 : p 0.7 H0 : 1 2
频数分析列联表分析有效a无效合计口服b584098注射643195合计12271193病例号给药方式结果口服有效口服有效注射无效注射有效口服有效注射有效注射无效口服有效口服无效10口服有效11注射有效12口服无效13口服无效14注射有效15口服无效193口服有效有效a无效合计口服b584098注射643195合计1227119312409871193四格表中的条件概率46有效a无效合计口服b584098注射643195合计12271193有效a无效口服b592408注射67432611例41提出假设1齐性检验47有效a无效合计口服b584098注射643195合计1227119312271193193例41理论频数的估计48有效a无效合计口服b584098注射643195合计1227119312271193193例41自由度的计算49有效a无效合计口服b584098注射643195合计122711936195360560053495112112221112212205ijij例41解答50有效a无效合计口服b584098注射643195合计122711936195360560053495不拒绝原假设p030
12
U = X -0.5 ~ N(0,1) 0.01 12
x 0.5 c 0.5
x 0.5
u 0.01
12 u1 2
c→临界值
4
u u1 2 HA : 0.5
u
拒绝H0后,可以降低α
5
u u1 2 H0 : 0.5
pˆ i
fi N
0.6
0.5
pˆ 0 0.536
0.4
0.3
0.2
0.1
0.0
红米非糯
红米糯
白米非糯
白米糯
• 例1 “二手”数据
id
属性
1
红米糯
2
红米非糯
3
红米非糯
4
红米非糯
5
红米糯
6
红米非糯
7
白米糯
8
红米非糯
9
白米糯
10
红米非糯
11
红米非糯
12
红米非糯
13
红米糯
14
红米非糯
…
…
18
Mendal理论:子二代4种属性的比例为9:3:3:1.
按模型计算的理论概率
0.5054 0.3449 0.1177 0.0268 0.0046 0.0006
理论频数
202.1 138.0 47.1 10.7结果的比较
32
Ti
npˆ i
ˆ ieˆ
400 i!
k
频数
0
213
1
128
2
37
≥3 18+3+1
• Oi : n个观测中属于第i类的实际频数
• Ti ( Ei) = npi :n个观测中属于第i类的理论频数(期
望频数)
å å å r
r
r
Ti = npi = n
(Oi -Ti ) = 0
i=1
i=1
i=1
一、吻合度(拟合优度)χ2检验
20
H0 : P( Ai ) = pi H0 : E(Oi ) = Ti
å c2 = r (Oi -Ti )2 ~ c2 (r -1)
i=1
Ti
år
Ti = npi
(Oi -Ti ) = 0
i=1
år-1
Tr = n- Ti
i=1
K.Pearson定理
22
H0 : P( Ai ) = pi H0 : E(Oi ) = Ti
å c2 = r (Oi -Ti )2 ~ c2 (r -1)
=
r i=1
(Oi -Ti )2 Ti
³
c2 1-a
(r
-1)
H
A
吻合度χ2检验
25
H0
:
p0
9 16
,
p1
3 16
,
p2
3 16
,
p3
1 16
属性(X ) 红米非糯 红米糯 白米非糯 白米糯 合计
实际频数O i
96
37
31
15 179
理论频数T i 100.69 33.56
33.56
11.19 179
0
213
0.533
1
128
0.320
2
37
0.093
3
18
0.045
4
3
0.008
5
1
0.003
1
2
3
4
5
30
第k 次观察 1 2 3 4 5 6 7 8 9 10 …
225 226 227 … 398 399 400
酵母细胞个数 0 0 2 0 0 0 0 1 1 1
5 2 0
0 3 0
H0:每微升培养液中的酵母细 胞数 X ~P(λ).
例2(3.26)
29
第k 次观察 1 2 3 4 5 6 7 8 9 10 …
225 226 227 … 398 399 400
酵母细胞个数 0 0 2 0 0 0 0 1 1 1
5 2 0
0 3 0
• 例2 描述性统计
0.6 0.5 0.4 0.3 0.2 0.1 0.0
0
i 观测频数O i 百分比
最小值 10
最大值 238
求和
985
例 卫生服务管理
观测数 13
9
研究某种疗法的疗效. 治疗结果分为: 好转很多 稍有好转 基本未好转 稍微变坏 更加恶化
例 有序变量
10
•总体分布未知 •总体分布不满足参数检验的前提条件 •数据为有序变量
非参数检验
11
•分类变量-赋予名称 频数分析,列联表分析
问题分析
16
以红米非糯稻和白米糯稻杂交,子二
id
属性
代检测179株. 问子二代分离是否符合 1
红米糯
2
红米非糯
9:3:3:1的规律?
3
红米非糯
4
红米非糯
总体:子二代的属性X — 随机变量
5
红米糯
6
红米非糯
xi 红米非糯(0) 红米糯(1) 白米非糯(2) 白米糯(3)
7
白米糯
pi
p0
p1
p2
p3
8
å ( ) r
c2 =
Oi -Ti - 0.5 2
i=1
Ti
χ2检验的注意事项
28
用血球计数板计数每微升培养液中的酵母细胞.
第k 次观察 1 2 3 4 5 6 7 8 9 10 …
225 226 227 … 398 399 400
酵母细胞个数 0 0 2 0 0 0 0 1 1 1
5 2 0
0 3 0
å c2 = r (Oi -Ti )2
i=1
Ti
χ2:
• 度量理论频数Ti和观察频数Oi之间距离 • 度量理论与数据吻合程度
• 1/Ti加权
O1 =3 T1 =2 O1 -T1 =1 O2 =300 T2 =299 O2 -T2 =1
吻合度
21
设变量 X 有 r 个取值或类,若
H0:P(Ai)=pi (i=1,2,…,r) 当n->∞时,有
1
128
2
37
Ti
=
npˆ i
=
400
lˆ ei -lˆ i!
≥3 18+3+1
df = 4-1-1 = 2
理论频数
202.1 138.0 47.1 10.7+1.8+0.2
å c2 = 4 (Oi -Ti )2 = (213- 202.16)2 ++ (22-12.80)2
i=1
Ti
202.16
差异是实质性的,还是由于偶然性造成的? 1.找到指标 — 衡量理论模型与试验结果之间的差异 2.确定该指标的分布——确定判断差异大小的界
• 例1 理论模型
19
设变量 X 有 r 个取值或类:Ai (i=1,2,…,r) 检验假设:
H0:P(Ai)=pi (i=1,2,…,r) • pi :第i类的理论概率
pi
=
li i!
e-l
E(X)
\ lˆ = x = 0.6825
• 例2 提出模型
31
lˆ = 0.6825
i 观测频数 百分比
0 213 0.5325
1 128 0.3200
2
37
0.0925
3
18
0.0450
4
3
0.0075
5
1
0.0025
pˆ i
=
lˆ ie-lˆ i!
Ti = npˆi
理论与试验结果是否相符?
H0 :
p0
9 16
,
p1
3 16
,
p2
3 16
,
p3
1 16
p0 0.56, p1 0.19, p2 0.19, p3 0.06
属性(X ) 红米非糯 红米糯 白米非糯 白米糯 合计
株数 百分比
96
37
31
15 179
0.536 0.207 0.173 0.084
变量的分类 — 测量水平
12
吻合度χ2检验(拟合优度χ2检验) • 吻合度检验1:是否服从理论分布的检验 • 吻合度检验2:列联表的独立性检验
2×2列联表检验 R×C列联表检验
第六节 非参数检验I
13
• 天蝎座垄断互联网?
比尔·盖茨 李彦宏 马化腾 张朝阳 曹国伟 茅道临 王雷雷 杨致远
/s/blog_4fbf5e6f0101cp3e.html?tj=1
X
判断的依据:差异的大小
2
P( X -0.5 ³c) = a
c
=
u1-a
2
0.01 12
0.012 X ~ N(0.5, )
12
x 0.5 c 0.5
μ≠0.5
μ=0.5
μ≠0.5
0.5
X
利用分布确定c
3
P( X -0.5 ³c) = a
c
=
u1-a
2
0.01 12
0.012 X ~ N(0.5, )
df=r-1- m=4 -1 - 1
理论频数
202.1 138.0 47.1 10.7+1.8+0.2
å å 3
3
Ti = npi = n
i=0
i=0
lˆ = x = 0.6825
• 例2 自由度的计算
33
H0:每微升培养液中的酵 k 频数
母细胞数 X ~P(λ).
0
213
lˆ = x = 0.6825
0.01水平上拒绝H0,细胞计数不服从泊松分布. 细胞计数服从泊松分布的前提条件:细胞之间不互 相吸引,也不互相排斥. 出现2个以上的细胞的次数偏多,也许细胞间有某 种吸引力,有聚集的趋势.
性别 血型 职业 汽车类型
•有序变量-有顺序,差值无意义 秩和检验
组织学分级:I级<II级<III级 文化程度:初中<高中<大学<…… 尿蛋白:->+>++>+++
实验室指标的临床意义:正常>异常->异常+
•定量变量-数值,有顺序,差值有意义
身高 体重 100kg-50kg
参数检验
收缩压 舒张压 血红蛋白含量
12.80
= 10.71
>
c2 1-0.01
(2)
=
9.2103
>
c2 1-0.05
(
2)
=
5.9915
0.01水平上拒绝H0,每微升培养液中的酵母细胞数 X 不服从泊松分布。
例2 解答
34
k 频数 理论频数 0 213 202.1 1 128 138.0 2 37 47.1 ≥3 22 12.8