独立性检验 (3)ppt课件
合集下载
《独立性检验》课件
第三章 统计案例
3.2独立性检验的 基本思想及其初 步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
1%把握认为A与B无关
99%把握认为A与B有关
5%把握认为A与B无关
95%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的证据判定A与B有关,可以认为A与B无关
独立性检验的步骤
第一步:设H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
366
874
K 2 2486.1225.
合计 360 880
1240
本 小 节 的 知 识 内 容 如 右 图
其中说法正确的个数为( )
A.0
B.1
C.2
D.3
[答案] B
[解析] 根据独立性检验的意义,知③正确.
2.下列关于 χ2 的说法中正确的是( ) A.χ2 越大,“变量 A、B 有关联”的可信度越小 B.χ2 越大,“变量 A、B 无关”的可信度越大 C.χ2 越小,“变量 A、B 有关联”的可信度越小 D.χ2 越小,“变量 A、B 无关”的可信度越小 [答案] C [解析] χ2 越大,“变量 A,B 有关联”的可信度越大,“变 量 A,B 无关”的可信度越小;相反,χ2 越小,“变量 A,B 有 关联”的可信度越小,“变量 A,B 无关”的可信度越大.
(1)列出数学与物理优秀的2x2列联表如下
3.2独立性检验的 基本思想及其初 步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
1%把握认为A与B无关
99%把握认为A与B有关
5%把握认为A与B无关
95%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的证据判定A与B有关,可以认为A与B无关
独立性检验的步骤
第一步:设H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
366
874
K 2 2486.1225.
合计 360 880
1240
本 小 节 的 知 识 内 容 如 右 图
其中说法正确的个数为( )
A.0
B.1
C.2
D.3
[答案] B
[解析] 根据独立性检验的意义,知③正确.
2.下列关于 χ2 的说法中正确的是( ) A.χ2 越大,“变量 A、B 有关联”的可信度越小 B.χ2 越大,“变量 A、B 无关”的可信度越大 C.χ2 越小,“变量 A、B 有关联”的可信度越小 D.χ2 越小,“变量 A、B 无关”的可信度越小 [答案] C [解析] χ2 越大,“变量 A,B 有关联”的可信度越大,“变 量 A,B 无关”的可信度越小;相反,χ2 越小,“变量 A,B 有 关联”的可信度越小,“变量 A,B 无关”的可信度越大.
(1)列出数学与物理优秀的2x2列联表如下
独立性检验(课件)高二数学(人教A版2019选修第三册)
|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.
人教A版选择性必修83列联表与独立性检验课件_3
事件X=1 发生的概率可估计为__P_(_X___1)___c _n_d___; 事件X=1,Y=0 发生的概率可估计为__P_(X___1,_Y___0_) __nc_. 事件X=1Y=0 发生的概率可估计为__P_(X___1_|Y___0_) __a_c_c__.
3.独立性检验 (1)零假设:设 X 和 Y 为定义在 Ω 上,取值于{0,1}的成对分类变量.由于X=0 和X=1 ,Y=0 和{Y=1}都是互为对立事件,故要判断事件X=1 和{Y=1}
1.辨析记忆(对的打“√”,错的打“×”). (1)2×2列联表只有4个格子.( × ) 提示:2×2列联表核心的数据是中间的4个格子. (2)χ2的大小是判断事件A与B是否相关的统计量.( 提示:根据独立性检验意义可知. (3)当χ2≥3.841时有95%的把握说事件A与B有关.( 提示:由对照表可得.
300 名男性)进行调查,对手机进行评分,评分的频数分布表如下:
分值
[50,
[60,
[70, [80,
[90,
女性
区间
60)
70)
80)
90)
100]
用户
频数
20
40
80
50
10
男性 用户
分值 区间
频数
[580)
90
[80, 90)
60
[90, 100]
X=0 X=1 合计
Y=0 a c
a+c
Y=1 b d
b+d
合计 a+b c+d n=a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列 联表.
(2)2×2 列联表中随机事件的概率:
如上表,记 n=a+b+c+d,则
3.独立性检验 (1)零假设:设 X 和 Y 为定义在 Ω 上,取值于{0,1}的成对分类变量.由于X=0 和X=1 ,Y=0 和{Y=1}都是互为对立事件,故要判断事件X=1 和{Y=1}
1.辨析记忆(对的打“√”,错的打“×”). (1)2×2列联表只有4个格子.( × ) 提示:2×2列联表核心的数据是中间的4个格子. (2)χ2的大小是判断事件A与B是否相关的统计量.( 提示:根据独立性检验意义可知. (3)当χ2≥3.841时有95%的把握说事件A与B有关.( 提示:由对照表可得.
300 名男性)进行调查,对手机进行评分,评分的频数分布表如下:
分值
[50,
[60,
[70, [80,
[90,
女性
区间
60)
70)
80)
90)
100]
用户
频数
20
40
80
50
10
男性 用户
分值 区间
频数
[580)
90
[80, 90)
60
[90, 100]
X=0 X=1 合计
Y=0 a c
a+c
Y=1 b d
b+d
合计 a+b c+d n=a+b+c+d
在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列 联表.
(2)2×2 列联表中随机事件的概率:
如上表,记 n=a+b+c+d,则
独立性检验PPT课件
用“假设检验”解决此问题
Page 3
请看下面的表格
表(一)
表(二)
Page 4
(一)反证法思想
结论如下:
︱ad – bc ︱越小,说明吸 烟与患肺癌之间的关系越 弱。
︱ad – bc ︱越大,说明吸 烟与患肺癌之间的关系越 强。
Page 5
(二)统一的评判标准
一般认为,小概率事件在一次 试验中不会发生,据此原则, 如果在某种假设下小概率事件 在一次试验中发生了,则认为 此假设不成立。(即H0不成立)
谢 谢 !ຫໍສະໝຸດ Page 6表(三) K2检验的临界值表
Page 7
(三) 假设检验的基本步骤:
(1)假设H0:两个分类变量没有关系; (2)求K2的观测值k; (3)⒈给定显著性水平α ,查表(三)定出临界值k0,与k进行 比较;⒉未给定显著性水平α,根据实际问题的需要确定容 许推断“两个分类变量有关系”犯错误概率的上界α,然后查 表(三)确定临界值k0 与k进行比较;
(4)若k≥k0,则拒绝H0,认为两个分类变量有关系; 若k<k0, 则接受H0,认为两个分类变量没有关系。
Page 8
小结: 反证法原理与假设检验原理
反证法原理
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
Page 9
假设检验原理
在一个已知假设 下,如果推出一 个小概率事件发 生,则推断这个 假设不成立的可 能性很大。
1.2 独立性检验的基本 思想及其初步应用
樊永丽
樊永丽
-
1
有一个颠扑不破的真理,那就是当我 们不能确定什么是真的时候,我们就
应该去探求什么是最可能的。 ----------笛卡尔
Page 3
请看下面的表格
表(一)
表(二)
Page 4
(一)反证法思想
结论如下:
︱ad – bc ︱越小,说明吸 烟与患肺癌之间的关系越 弱。
︱ad – bc ︱越大,说明吸 烟与患肺癌之间的关系越 强。
Page 5
(二)统一的评判标准
一般认为,小概率事件在一次 试验中不会发生,据此原则, 如果在某种假设下小概率事件 在一次试验中发生了,则认为 此假设不成立。(即H0不成立)
谢 谢 !ຫໍສະໝຸດ Page 6表(三) K2检验的临界值表
Page 7
(三) 假设检验的基本步骤:
(1)假设H0:两个分类变量没有关系; (2)求K2的观测值k; (3)⒈给定显著性水平α ,查表(三)定出临界值k0,与k进行 比较;⒉未给定显著性水平α,根据实际问题的需要确定容 许推断“两个分类变量有关系”犯错误概率的上界α,然后查 表(三)确定临界值k0 与k进行比较;
(4)若k≥k0,则拒绝H0,认为两个分类变量有关系; 若k<k0, 则接受H0,认为两个分类变量没有关系。
Page 8
小结: 反证法原理与假设检验原理
反证法原理
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
Page 9
假设检验原理
在一个已知假设 下,如果推出一 个小概率事件发 生,则推断这个 假设不成立的可 能性很大。
1.2 独立性检验的基本 思想及其初步应用
樊永丽
樊永丽
-
1
有一个颠扑不破的真理,那就是当我 们不能确定什么是真的时候,我们就
应该去探求什么是最可能的。 ----------笛卡尔
独立性检验ppt课件
解:(Ⅰ)调查的500位老年人中有70位需要志愿者提供 帮助,因此该地区老年人中,需要帮助的老年人的比 例的估算值为 70 14%
500
(Ⅱ)K 2 500 (40 270 30160)2 9.967 200 300 70 430
由于9.967>6.635,所以有99%的把握认为该地区的老年 人是否需要帮助与性别有关。
者提供帮助,用简单随机抽样方法从该地区调查了500位 老人,结果如下:
是否需要志愿者 性别
男
女
需要
40
30
不需要
160
270
(Ⅰ)估计该地区老年人中,需要志愿者提供帮助的 老年人的比例; (Ⅱ)能否有99℅的把握认为该地区的老年人是否 需要志愿者提供帮助与性别有关? (Ⅲ)根据(Ⅱ)的结论,能否提出更好的调查办法 来估计该地区的老年人中,需要志愿者提供帮助的 老年人的比例?说明理由。
优秀
非优秀
总计
甲班
10
乙班
合计
30 105
已知在全部 105 人中抽到随机抽取 1 人为优秀的概率为27
(1)请完成上面的列联表;
(2)根据列联表的数据,若按照 95%的可靠性要求,能
否认为“成绩与班级有关系”.
有甲乙两个班级进行数学考试,按照大于等于85分为
优秀,85分以下为非优秀统计成绩后,得到如下的列
P(K2 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 ≥k) k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
【例1】在对人们的休闲方式的一次调查中,共调查了124人,其中女 性70人,男性54人。
独立性检验 课件ppt
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
设n=a+b+c+d
ab 则P(A) n ac P(B) n
ab ac 故P(AB) n n
吸烟且患病人数 吸烟但未患病人数 不吸烟但患病人数 不吸烟且未患病人数
n P ( AB ) n
8 7 3 50 1 4 2 50 5 50 3 50 15 1 4 2 50 2 2 m n 2 2 2 a b c
13. 8; 14. 56; 15. C ; C C ; C ; C C C ; C C C ; 16. 720;216;192;96
5 50 1 4 2 50
x0
0.10
0.05 0.025 0.010 0.005 0.001
例如
2
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
10.828
0.1%把握认 为A与B无关
1%把握认为 A与B无关
99.9%把握认 为A与B有关
6.635
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。 根据这些数据能否断定:患肺癌与 吸烟有关吗?
列2×2联 表
即
n(ad bc)2 化简得 2 (a c )(b d )(a b)(c d )
独立性检验
用χ2统计量研究 这类问题的方法 步骤 患病 a c a+c
设n=a+b+c+d
ab 则P(A) n ac P(B) n
ab ac 故P(AB) n n
吸烟且患病人数 吸烟但未患病人数 不吸烟但患病人数 不吸烟且未患病人数
n P ( AB ) n
8 7 3 50 1 4 2 50 5 50 3 50 15 1 4 2 50 2 2 m n 2 2 2 a b c
13. 8; 14. 56; 15. C ; C C ; C ; C C C ; C C C ; 16. 720;216;192;96
5 50 1 4 2 50
x0
0.10
0.05 0.025 0.010 0.005 0.001
例如
2
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
10.828
0.1%把握认 为A与B无关
1%把握认为 A与B无关
99.9%把握认 为A与B有关
6.635
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。 根据这些数据能否断定:患肺癌与 吸烟有关吗?
列2×2联 表
即
n(ad bc)2 化简得 2 (a c )(b d )(a b)(c d )
独立性检验
用χ2统计量研究 这类问题的方法 步骤 患病 a c a+c
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验定义:
利用随机变量 K 2 来判断两个分类变量有关系的方法。
独立检验步骤:
(1) 列出2X2列联表
(2)计算 K 2 的观测值k;
(3)查对临界值,作出判断。
卡方临界值表:
P(K2 ≥k0) 0.50
k0
0.445
0.40 0.708
0.25 1.323
0.15 0.10 2.072 2.706
独立性检验的基本思想类似于数学中的反证法.先假设“两个分 类变量没有关系”成立,计算随机变量K2的值,如果K2值很大, 说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
判断两个分类变量是否相关的研究方法:
(1)感性认识:先通过列联表或等高条形图观察两个量之间是否 存在相关关系; (2)理性认识:再假设两个量之间相互独立,然后研究这种假设 发生的概率,如果概率很小(小于10%),则说明这种假设不可靠, 从而可以得出两个量之间有相关关系!
0.0054
在吸烟者中患肺癌的比重是
0.0228
结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,
吸烟者患肺癌的可能性大。
4
等高条形图
结论:吸烟更容易引发肺癌
不患病 比例
患病 比例
5
2.列联表 (1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},
其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
3. 等高条形图 (1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分 别对应不同的颜色,这就是等高条形图. (2)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用 等高条形图展示列联表数据的频率特征. (3)观察等高条形图发现相差很大,就判断两个分类变量之间有6 关系.
d
1
其中n a b c d为样本容量.
作用:检验两个变量是否有关系
8
若H0成立,即"吸烟与肺癌没有关系",则K 2应该很小. 计算得K 2的观测值为
k 9965 7775 49 42 20992 56.632,
7817 2148 9874 91 这个值是不是很大呢?
在H0成立的情况下,统计学家估算出如下概率
K2
n(ad bc)2
(a b)(c d )(a c)(b d )
答:1中每个变量取不同“值”时,表示不同个体, 2中变量每取不同“值”表示个体所属不同的类别
问题2:吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?
本节课就是要学习独立性检验思想在分析分类变量之间关系中的应用。
1分类变量: 变量的不同“值”表示个体所属的不同类别,像这样的变量称为
分类变量。
0.05 3.841
0.025 5.024
0.010 6.635
0.005 7.879
K2的观测值为k
如果 k k0 , 就以 (1 P(K 2 k0 )) 100% 的把握认为X与Y有系”;
而这种判断有可能出错,出错的概率不超过 P(K 2 k0 ) 。
10
0.001 10.828
对独立性检验思想的理解:
结论是否可靠?
表1-9 吸烟与肺癌联列表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设H0:吸烟与患肺癌没有关系
用A表示不吸烟,用B表示不患肺癌,则H等价于吸烟与患肺癌独立 P(AB)=P(A)P(B),
a a b a c , 其中n a b c d为样本容量,
像表3-7这样列出的两个分类变量的频数表,称 为调查吸为烟列是联否表对患。肺有影响,某种瘤研究所随机地调查了9965
人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比重是
11
典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有 214人秃顶;而另外772名不是因为患心脏病而住院的男性病人 中有175人秃顶。 (1)利用图形判断秃顶与患心脏病是否有关系? (2)能否在犯错概率不超0.01的前提下,认为秃顶与患心脏病 有关系?
P(k≥k0) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
PK 2 6.635 0.01.
2
即在H0成立的情况下K 2的值大于6.635的概率近似于0.01,非常小。是 个小概率事件。K的观测值56.635远远大于6.635,所以我们有理由断
定说明“假设H
”是不成立的,即吸烟与患肺癌有关系。而这种判
0
断的出错概不会超过0.01,或者说有99%的把握判断它俩有关系。 9
nn
n
即 a b c d a a ba c,即ad bc 7
因此,| ad bc | 越小,说明吸烟与患肺癌之间关系越弱; | ad bc | 越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,
我们构造一个随机变量(卡方统计量)
K
2
a
nad bc2 bc d a cb
学习目标
目标解读
1.了解分类变量的意义. 2.了解2×2列联表的意义.
3.了解随机变量K2的意义.
4.通过对典型案例分析,了 解独立性检验的基本思想和 方法.
1.重点是2×2列联 表的意义及随机
变量K2的计算与
应用. 2.难点是独立性
检验的基本思想.
2
问题引入
问题1:以下两组变量在取不同的值时的区别 (1)体重、身高、学生的学习成绩 (2)性别、国籍、宗教信仰、是否吸烟、是否患病
12
解:根据题目所给数据得到如下列联表: 患心脏病 不患心脏病 总计
秃顶
214
不秃顶
451
总计
665
175
389
597
1048
772
1437
13
(1)等高条形图
图2
可以看出秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的 表中的数据,得到