列联表独立性分析案例
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
k0 3.841 5.024 6.636 7.879
2020/12/11
0.10 2.706
0.001 10.828
独立性检验
随机变量-----卡方统计量 K 2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
37
85
35
143
72
228
总计 122 178 300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
结论的依据。
(a b c d)(a b)(c d) K 2
n(ad bc)2
,
(a c)(b d)
(a b)(c d )(a c)(b d )
不患心脏病 175 597 772
总计 389 1048 1437
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
不成立,即有99%的把握认为“吸烟
0
与20患20/1肺2/1癌1 有关系”。
判断H 0是否成立的规则
如果k 2 6.635,就判断 H0 不成立,即认为吸烟与
患肺癌有关系;否则,就判断 H0 成立,即认为吸烟 与患肺癌没有关系。
在该规则下,把结论“H0 成立”错判成H“0 不
成立”的概率不会差P过(K 2 6.635) 0.01,
可以利用独立性检验来考察两个分类变量是否有关系,并且 能较精确地给出这种判断的可靠程度。
a ab c
cd
2020/12/11
具体作法是:
(1)根据实际问题需要的可信程度确定临界值
k
;
0
(2)利用公式(1),由观测数据计算得到随机变量 K 2的观测值;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
思考
如果K 2 6答.635:,就判断断定H出0不错成立的,概这种率判为断出0.错01的。可能性有多大?
现在观测值k 9965(7775 49 42 2099)2 56.632太大了, 7817 2148 9874 91
在H
成立的情况下能够出现这样的观测值的概率不超过0.01,
0
因此我们有99%的把握认为H
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
K 2 10.828
K 2 6.635
K 2 2.706
K 2 2.706
2020/12/11
因此,K 2 越大, “性别与喜欢数学课程之间有关系”成立的可能性就越大。
另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件
{K 2 3.841} 的概率为 P(K 2 3.841) 0.05,
因此事件A是一个小概率事件。而由样本数据计算得 K 2的观测值k=4.514,即
小概率事件A发生。因此应该断定“性别与喜欢数学课程之间有关系”成立, 并且这种判断结果出错的可能性约为5%。所以,约有95%的把握认为“性 别2与02喜0/1欢2/11数学课程之间有关系”。
的把握认为“两个分类变量之间有关系”;把k k0 解释为
不能以(1 P(K 2 k)) 100% 的把握认为“两个分类变量
之间有关系”,或者样本观测数据没有提供“两个分类变量
之间有关系”的充分证据。
2020/12/11
思考:
利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢?
列联表独来自百度文库性分析案例
2020/12/11
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(777549 42 2099)2 56.632 (2) 7817 2148987491
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本20节20/12研/11 究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
2020/1那2/11么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间有没关系”错误的判断
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
一般地,假设有两个分类变量X和Y,它们的值域 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列 联表)为:
表1-11 2x2联表
y1
x1
a
x2
c
总计
a+c
2020/12/11
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
若要判断的结论为:H1:“X与Y有关系”,可以 按如下步骤判断H1成立的可能性:
结论的依据。
解:可以有95%以上的把握认为“性别与喜欢数学课程之间有关系”。
分别用a,b,c,d表示样本中喜欢数学课的男生人数、不喜欢数学课的男生
人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。
a
如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 c 应该相差很多,即
a+c
不患病 b d
b+d
总计 a+b c+d a+b+c+d
第三步:计算 K 2
n(ad bc)2
(a c)(b d)(a b)(c d)
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2020/12/11
反证法原理与假设检验原理
反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在
某城市的某校高中生中随机抽取300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程
总计
男
37
85
122
女
35
总计
72
143
178
228
300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2020/12/11
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?
值
这仅需要确定一个正数 k0 ,当 k k大。此时相应于k 0 的判断规则为:
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表1-13中的数据,得到
K 2 1437 (214597 175 451)2 16.373 6.635. 3891048 665 772
所以有99%的把握认为“秃顶患心脏病有关”。
ab
cd
a c ad bc
(a b c d)(a b)(c d)
a b c d (a b)(c d)
(a c)(b d)
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下联表:
男 女 总计
喜欢数学课程 不喜欢数学课程
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
2020/12/11
上面我们通过分析数据,得到的直观印象是吸烟和患肺癌 有关,那么事实是否真的如此呢?这需要用统计观点来考察 这个问题。
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 k0 ) 0.50 0.40 0.25 0.15
k0 0.455 0.708 1.323 2.072
P(K2 k0 ) 0.05 0.025 0.010 0.005
不患肺癌
a c a+c
患肺癌
b d b+d
总计
a+b c+d a+b+c+d
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事
件 件A下和应B该发有生P的(A频)数 a。n+由b 于, P频(B率)接a近n+ c于, 概P率(AB,)所an以. 在H0成立的条
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2020/12/11
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
2020/12/11
2020/12/11
0.10 2.706
0.001 10.828
独立性检验
随机变量-----卡方统计量 K 2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
37
85
35
143
72
228
总计 122 178 300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
结论的依据。
(a b c d)(a b)(c d) K 2
n(ad bc)2
,
(a c)(b d)
(a b)(c d )(a c)(b d )
不患心脏病 175 597 772
总计 389 1048 1437
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
不成立,即有99%的把握认为“吸烟
0
与20患20/1肺2/1癌1 有关系”。
判断H 0是否成立的规则
如果k 2 6.635,就判断 H0 不成立,即认为吸烟与
患肺癌有关系;否则,就判断 H0 成立,即认为吸烟 与患肺癌没有关系。
在该规则下,把结论“H0 成立”错判成H“0 不
成立”的概率不会差P过(K 2 6.635) 0.01,
可以利用独立性检验来考察两个分类变量是否有关系,并且 能较精确地给出这种判断的可靠程度。
a ab c
cd
2020/12/11
具体作法是:
(1)根据实际问题需要的可信程度确定临界值
k
;
0
(2)利用公式(1),由观测数据计算得到随机变量 K 2的观测值;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
思考
如果K 2 6答.635:,就判断断定H出0不错成立的,概这种率判为断出0.错01的。可能性有多大?
现在观测值k 9965(7775 49 42 2099)2 56.632太大了, 7817 2148 9874 91
在H
成立的情况下能够出现这样的观测值的概率不超过0.01,
0
因此我们有99%的把握认为H
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
K 2 10.828
K 2 6.635
K 2 2.706
K 2 2.706
2020/12/11
因此,K 2 越大, “性别与喜欢数学课程之间有关系”成立的可能性就越大。
另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件
{K 2 3.841} 的概率为 P(K 2 3.841) 0.05,
因此事件A是一个小概率事件。而由样本数据计算得 K 2的观测值k=4.514,即
小概率事件A发生。因此应该断定“性别与喜欢数学课程之间有关系”成立, 并且这种判断结果出错的可能性约为5%。所以,约有95%的把握认为“性 别2与02喜0/1欢2/11数学课程之间有关系”。
的把握认为“两个分类变量之间有关系”;把k k0 解释为
不能以(1 P(K 2 k)) 100% 的把握认为“两个分类变量
之间有关系”,或者样本观测数据没有提供“两个分类变量
之间有关系”的充分证据。
2020/12/11
思考:
利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢?
列联表独来自百度文库性分析案例
2020/12/11
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(777549 42 2099)2 56.632 (2) 7817 2148987491
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本20节20/12研/11 究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
2020/1那2/11么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间有没关系”错误的判断
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
一般地,假设有两个分类变量X和Y,它们的值域 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列 联表)为:
表1-11 2x2联表
y1
x1
a
x2
c
总计
a+c
2020/12/11
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
若要判断的结论为:H1:“X与Y有关系”,可以 按如下步骤判断H1成立的可能性:
结论的依据。
解:可以有95%以上的把握认为“性别与喜欢数学课程之间有关系”。
分别用a,b,c,d表示样本中喜欢数学课的男生人数、不喜欢数学课的男生
人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。
a
如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 c 应该相差很多,即
a+c
不患病 b d
b+d
总计 a+b c+d a+b+c+d
第三步:计算 K 2
n(ad bc)2
(a c)(b d)(a b)(c d)
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2020/12/11
反证法原理与假设检验原理
反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在
某城市的某校高中生中随机抽取300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程
总计
男
37
85
122
女
35
总计
72
143
178
228
300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2020/12/11
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?
值
这仅需要确定一个正数 k0 ,当 k k大。此时相应于k 0 的判断规则为:
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表1-13中的数据,得到
K 2 1437 (214597 175 451)2 16.373 6.635. 3891048 665 772
所以有99%的把握认为“秃顶患心脏病有关”。
ab
cd
a c ad bc
(a b c d)(a b)(c d)
a b c d (a b)(c d)
(a c)(b d)
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下联表:
男 女 总计
喜欢数学课程 不喜欢数学课程
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
2020/12/11
上面我们通过分析数据,得到的直观印象是吸烟和患肺癌 有关,那么事实是否真的如此呢?这需要用统计观点来考察 这个问题。
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 k0 ) 0.50 0.40 0.25 0.15
k0 0.455 0.708 1.323 2.072
P(K2 k0 ) 0.05 0.025 0.010 0.005
不患肺癌
a c a+c
患肺癌
b d b+d
总计
a+b c+d a+b+c+d
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事
件 件A下和应B该发有生P的(A频)数 a。n+由b 于, P频(B率)接a近n+ c于, 概P率(AB,)所an以. 在H0成立的条
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2020/12/11
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
2020/12/11