独立性检验课件
合集下载
832独立性检验课件(共19张PPT)
效果是否比甲种疗法好.
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,经计算得到
×
(
×
−
×
)
=
≈ . > . = . .
× × ×
根据小概率值=0.05的 独立性检验,我们推断 H0不成立,即可以认为两种疗法
癌有关系”.
讲
课
人
:
邢
启
强
16
根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为
7775
42
0.9946,
0.0054
7817
7817
吸烟者中不患肺癌和患肺癌的评率分别为
2099
49
0.9772,
0.0228
2148
2148
0.0228
由
4.2
0.0054
可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4
2
复习巩固
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中
与
值的大小粗略地判断分类变量x和Y之间有无
+
+
关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互
8.3列联表与独立性检验
8.3.2 独立性检验
复习巩固
2×2列联表的概念
按研究问题的需要,将数据分类统计,并做成表格加以保存,这种形
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,经计算得到
×
(
×
−
×
)
=
≈ . > . = . .
× × ×
根据小概率值=0.05的 独立性检验,我们推断 H0不成立,即可以认为两种疗法
癌有关系”.
讲
课
人
:
邢
启
强
16
根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为
7775
42
0.9946,
0.0054
7817
7817
吸烟者中不患肺癌和患肺癌的评率分别为
2099
49
0.9772,
0.0228
2148
2148
0.0228
由
4.2
0.0054
可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4
2
复习巩固
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大
小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中
与
值的大小粗略地判断分类变量x和Y之间有无
+
+
关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互
8.3列联表与独立性检验
8.3.2 独立性检验
复习巩固
2×2列联表的概念
按研究问题的需要,将数据分类统计,并做成表格加以保存,这种形
独立性检验PPT课件
第三步:引入一个随机变量:卡方统计量 K 2ab c n a d d a b c c 2bd
第四步:查对临界值表(教材P13),作出判断。
利用独立性检验来考察两个分类变量是否有关系,
能较精确地给出这种判断的可靠程度. 具体作法是:
(1)根据实际问题需要的可信程度确定临界值k0; (2)由观测数据计算得到随机变量K2的观测值k; (3)如果k>6.635,就以 1-P(K2≥6.635)×100%的 把握认为“X与Y有关系”;否则就说样本观测数据没 有提供“X与Y有关系”的充分证据.
变 量 分 类 变 量 — — 独独立立性性检检验相 验关 指 数 R2、 残 差 分 析 )
本节研究的是两个分类变量的独立性检验问题。
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。
根据这些数据能否断定:患病与 吸烟有关吗?
为了研究这个问题,我们将上述列问2题×用2列下表联表表示:
患病 不患病 总计
吸烟
37
不吸烟
21
183
220
274
295
总计
58
457
515
两个分类变量之间是否有关系?
1.从列联表分别计算患病在两类中的频率。
在不吸烟者中患病的比重是 7.12% 在吸烟者中患病的比重是 16.82% 上述结论能说明吸烟与患病有关吗?
(2)利用图形判断性别与是否喜爱看《新 还珠格格》有关?
有一个颠扑不破的真理,那就是当 我们不能确定什么是真的时,我们就 应该去探求什么是最可能的。
独立性检验通用课件
三、例题分析
例2.性别与喜欢数学课
为考察高中生的性别与是否喜欢数学课程之间的关系,在某城
市的某校高中生中随机抽取300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程 总计
男
37
85
122
女
35
总计
72
143
178
228
300
由表中数据计算K2的观测值k=4.513。在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么?
解:根据题目所给数据得到如下列2×2联表:
晕厥 不晕厥
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据列联表的数据,得到
K 2 1437 (214597 175 451)2 16.373 6.635. 3891048 665 772
所以有99%的立性检验
1、列出2×2列联表
2、引入一个随机变量,
患病 不患病
总计
卡方统计量:
吸烟
a
b
a+b
不吸烟 c
d
总计 a+c b+d
c+d a+b+c+d
K
2
a
b
n c
ad bc2 d a c
b
d
3、由观测数据计算得到随机变量K2的观测值k;
4、以1-P(K2≥k)×100%的把握认为“X与Y有关系”;否则就
课堂小结:
一、独立性检验
{ 1、变量:
定量变量:数值可以连续变化的不同值,如身高。 分类变量:数值只可以取两种情况,如性别、是否吸烟。
1.1独立性检验课件人教新课标B版
11/1/2024
某医疗机构为了了解患慢性支气管炎与吸烟是否有关,进行了一次抽样调查共调查了339名50岁以上的人,调查结果如下表
为了研究这个问题,将上述数据用下表来表示 (2×2列联表)
患病
未患病
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
11/1/2024
患病
未患病
合计
1.1 独立性检验
小概率事件的产生?
高中生恋爱对学习成绩有影响吗?高中流行这样一句话“文科就怕数学不好,理科就怕英语不好.”试问:文科学生总成绩不好与数学成绩不好有关系吗?学生的性别与认为作业量大有关吗?高中生吸烟对学习成绩有影响吗?吸烟与患慢性气管炎有关吗?
你能说说下面两个变量之间有关系吗?
认为事件A与事件B是无关的.
11/1/2024
例3: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
根据概率的统计定义,上面提到的众多事件的概率都可以用相应的频率来估计.
P(AB)的估计为
P(A)的估计为 ,
P(B)的估计为
于是 与 应该很接近,
或者说
比较小.
11/1/2024
应该比较小.
某医疗机构为了了解患慢性支气管炎与吸烟是否有关,进行了一次抽样调查共调查了339名50岁以上的人,调查结果如下表
为了研究这个问题,将上述数据用下表来表示 (2×2列联表)
患病
未患病
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
11/1/2024
患病
未患病
合计
1.1 独立性检验
小概率事件的产生?
高中生恋爱对学习成绩有影响吗?高中流行这样一句话“文科就怕数学不好,理科就怕英语不好.”试问:文科学生总成绩不好与数学成绩不好有关系吗?学生的性别与认为作业量大有关吗?高中生吸烟对学习成绩有影响吗?吸烟与患慢性气管炎有关吗?
你能说说下面两个变量之间有关系吗?
认为事件A与事件B是无关的.
11/1/2024
例3: 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
根据概率的统计定义,上面提到的众多事件的概率都可以用相应的频率来估计.
P(AB)的估计为
P(A)的估计为 ,
P(B)的估计为
于是 与 应该很接近,
或者说
比较小.
11/1/2024
应该比较小.
独立性检验(上课)PPT课件
课堂讲练互动
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
探究学习
课堂讲练互动
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
探究学习
课堂讲练互动
回顾:
独立性检验的步骤:
1、写出列联表; 2、作出假设; 3、求出 K2 的值. 4、下结论(利用临界值的大小来判断假设是否成立).
探究学习
课堂讲练互动
题型 独立性的检验 【变式】 为研究学生的数学成绩与对学习数学的兴趣是否有关,
对某年级学生作调查得到如下数据:
成绩优秀 成绩较差 总计
探究学习
课堂讲练互动
【示例】 某小学对232名小学生调查中发现:180名男 生中有98名有多动症,另外82名没有多动症,52名 女生中有2名有多动症,另外50名没有多动症,用 独立性检验方法判断多动症与性别是否有关系? 解: 由题可列出如下列联表:
多动症 无多动症 总计
男生 98
82 180
女生 2
解:列出2×2列联表: 有兴趣 无兴趣 总计
理 文 总计 138 73 211 98 52 150 236 125 361
探究学习
课堂讲练互动
解 列出2×2列联表
理 文 总计 有兴趣 138 73 211
无兴趣 98 52 150
代入公式得 K2 的观测值
总计 236 125 361
k=36123×6×13182×5×522-117×3×159082≈1.871×10-4.
《独立性检验》课件
第三章 统计案例
3.2独立性检验的 基本思想及其初 步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
1%把握认为A与B无关
99%把握认为A与B有关
5%把握认为A与B无关
95%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的证据判定A与B有关,可以认为A与B无关
独立性检验的步骤
第一步:设H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
366
874
K 2 2486.1225.
合计 360 880
1240
本 小 节 的 知 识 内 容 如 右 图
其中说法正确的个数为( )
A.0
B.1
C.2
D.3
[答案] B
[解析] 根据独立性检验的意义,知③正确.
2.下列关于 χ2 的说法中正确的是( ) A.χ2 越大,“变量 A、B 有关联”的可信度越小 B.χ2 越大,“变量 A、B 无关”的可信度越大 C.χ2 越小,“变量 A、B 有关联”的可信度越小 D.χ2 越小,“变量 A、B 无关”的可信度越小 [答案] C [解析] χ2 越大,“变量 A,B 有关联”的可信度越大,“变 量 A,B 无关”的可信度越小;相反,χ2 越小,“变量 A,B 有 关联”的可信度越小,“变量 A,B 无关”的可信度越大.
(1)列出数学与物理优秀的2x2列联表如下
3.2独立性检验的 基本思想及其初 步应用
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
1%把握认为A与B无关
99%把握认为A与B有关
5%把握认为A与B无关
95%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的证据判定A与B有关,可以认为A与B无关
独立性检验的步骤
第一步:设H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
366
874
K 2 2486.1225.
合计 360 880
1240
本 小 节 的 知 识 内 容 如 右 图
其中说法正确的个数为( )
A.0
B.1
C.2
D.3
[答案] B
[解析] 根据独立性检验的意义,知③正确.
2.下列关于 χ2 的说法中正确的是( ) A.χ2 越大,“变量 A、B 有关联”的可信度越小 B.χ2 越大,“变量 A、B 无关”的可信度越大 C.χ2 越小,“变量 A、B 有关联”的可信度越小 D.χ2 越小,“变量 A、B 无关”的可信度越小 [答案] C [解析] χ2 越大,“变量 A,B 有关联”的可信度越大,“变 量 A,B 无关”的可信度越小;相反,χ2 越小,“变量 A,B 有 关联”的可信度越小,“变量 A,B 无关”的可信度越大.
(1)列出数学与物理优秀的2x2列联表如下
独立性检验 PPT课件
9 9 6 5 (7 7 7 5 4 9 4 2 2 0 9 9 )2
k
5 6 .6 3 2 .
7 8 1 7 2 1 4 8 9 8 7 4 9 1
在H0成立的情况下,统计学家估算出如下的概率:
P(K26.635)0.01
也就是说,在H0成立的情况下,对随机变量K2进行多次 观测,观测值超过6.635的频率约为0.01,是一个小概
根据这些数据能否断定:患肺癌与吸烟有 关吗?
2×2列联 为了研究这个问题,我们将上述问题用表下表表示:
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
上述结论能说明吸烟与患肺癌有关吗?能有多大把握 认为吸烟与患肺癌有关呢?
现在想要知道能够以多大的把握认为“吸烟与患肺癌 有关”,为此先假设:
H0:吸烟与患肺癌没有关系 把数字用字母代替,得到如下用字母表示的列联表:
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
吸烟与患肺癌的列联表:
不吸烟 吸烟 总计
不患肺癌 a c
a+c
两个定量变量的相关关系分析:回归分析(画散点图、 相关系数r、相关指数R2、残差分析)
对于性别变量,其取值为男和女两种,这种变量的不 同“值”表示个体所属的不同类别,像这样的变量称 为分类变量. 分类变量也称为属性变量或定性变量,它们的取值一 定是离散的,而且不同的取值仅表示个体所属的类别, 如性别变量,只取男、女两个值,商品的等级变量只 取一级、二级、三级等等. 如是否吸烟、宗教信仰、是否患肺癌、国籍等等.
《独立性检验》同步课件
A.%
B.%
C.. %
D.. %
解析:由于. > . ,故在犯错误的概率不超过0.025的前提下认为
“文化程度与月收入有关系”,即有. %的把握认为“文化程度与月收入
有关系”.
答案: D
4.为了解某班学生是否喜爱打篮球与性别是否有关,对该班50名学生进行
了问卷调查,得到了如下的 × 列联表,
表:
将列联表中数据代入
×(×−×)
×××
=
(−)
计算得观测值
(+)(+)(+)(+)
≈ . .附表:
=
参考附表,得到的结论正确的是( )
A.有%以上的把握认为“是否爱好该项运动与性别有关”
B.有%以上的把握认为“是否爱好该项运动与性别无关”
根据关于智商的表中的数据计算得
=
×(×−×)
×××
=
×(×−×)
×××
=
×(×−×)
×
=
=
=
≈ . .
=
= . .
C.在犯错误的概率不超过. %的前提下,认为“是否爱好该项运动与性别有关”
D.在犯错误的概率不超过. %的前提下,认为“是否爱好该项运动与性别无关”
解析:由 ≈ . 及 ⩾ . = . 可知,在犯错误的概率不超过
%的前提下认为“是否爱好该项运动与性别有关”,也就是有%以上的
×(×−×)
×××
=
因为. < . < . < . ,
所以与性别有关联的可能性最大的变量是阅读量. 答案:
≈ . .
≈ . .
B.%
C.. %
D.. %
解析:由于. > . ,故在犯错误的概率不超过0.025的前提下认为
“文化程度与月收入有关系”,即有. %的把握认为“文化程度与月收入
有关系”.
答案: D
4.为了解某班学生是否喜爱打篮球与性别是否有关,对该班50名学生进行
了问卷调查,得到了如下的 × 列联表,
表:
将列联表中数据代入
×(×−×)
×××
=
(−)
计算得观测值
(+)(+)(+)(+)
≈ . .附表:
=
参考附表,得到的结论正确的是( )
A.有%以上的把握认为“是否爱好该项运动与性别有关”
B.有%以上的把握认为“是否爱好该项运动与性别无关”
根据关于智商的表中的数据计算得
=
×(×−×)
×××
=
×(×−×)
×××
=
×(×−×)
×
=
=
=
≈ . .
=
= . .
C.在犯错误的概率不超过. %的前提下,认为“是否爱好该项运动与性别有关”
D.在犯错误的概率不超过. %的前提下,认为“是否爱好该项运动与性别无关”
解析:由 ≈ . 及 ⩾ . = . 可知,在犯错误的概率不超过
%的前提下认为“是否爱好该项运动与性别有关”,也就是有%以上的
×(×−×)
×××
=
因为. < . < . < . ,
所以与性别有关联的可能性最大的变量是阅读量. 答案:
≈ . .
≈ . .
独立性检验ppt课件
解:(Ⅰ)调查的500位老年人中有70位需要志愿者提供 帮助,因此该地区老年人中,需要帮助的老年人的比 例的估算值为 70 14%
500
(Ⅱ)K 2 500 (40 270 30160)2 9.967 200 300 70 430
由于9.967>6.635,所以有99%的把握认为该地区的老年 人是否需要帮助与性别有关。
者提供帮助,用简单随机抽样方法从该地区调查了500位 老人,结果如下:
是否需要志愿者 性别
男
女
需要
40
30
不需要
160
270
(Ⅰ)估计该地区老年人中,需要志愿者提供帮助的 老年人的比例; (Ⅱ)能否有99℅的把握认为该地区的老年人是否 需要志愿者提供帮助与性别有关? (Ⅲ)根据(Ⅱ)的结论,能否提出更好的调查办法 来估计该地区的老年人中,需要志愿者提供帮助的 老年人的比例?说明理由。
优秀
非优秀
总计
甲班
10
乙班
合计
30 105
已知在全部 105 人中抽到随机抽取 1 人为优秀的概率为27
(1)请完成上面的列联表;
(2)根据列联表的数据,若按照 95%的可靠性要求,能
否认为“成绩与班级有关系”.
有甲乙两个班级进行数学考试,按照大于等于85分为
优秀,85分以下为非优秀统计成绩后,得到如下的列
P(K2 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 ≥k) k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
【例1】在对人们的休闲方式的一次调查中,共调查了124人,其中女 性70人,男性54人。
独立性检验课件
样本数据应具有代表 性,不能以偏概全, 否则会影响检验结果 的准确性。
检验结果的解释应合 理,不能断章取义, 否则会影响结论的正 确性。
样本数据应真实可靠 ,不能弄虚作假,否 则会导致检验结果失 去意义。
局限性
独立性检验只能用于判断两个分 类变量之间是否独立,无法用于
判断其他变量之间的关系。
独立性检验对样本数据的分布有 一定要求,不适用于所有情况。
01
02
03
定义
Monte Carlo test是一种 通过随机抽样来近似解决 复杂数学问题的计算方法 。
原理
利用随机抽样来模拟样本 分布,从而得出一个近似 解。
应用场景
适用于处理复杂数学问题 、样本分布难以确定或无 法满足正态分布的情况。
03
实例分析
两个分类变量的相关性分析
总结词
通过卡方检验、列联表分析等方法,可 以研究两个分类变量之间的相关性。
THANKS FOR WATCHING
感谢您的观看
定义
Fisher's exact test是一种精确 的卡方检验,用于分析两个分类
变量之间的关联性。
公式
Fisher's exact test基于排列组 合原理,通过对样本数据的可能
情况进行计算,得出p值。
应用场景
适用于样本数据量较小、样本分 布不符合正态分布或近似正态分
布的情况。
Monte Carlo test
• 公式展示:皮尔逊相关系数定义为:r = (nΣ(xi-yi)(xi+yi)-Σ(xi-yi)²) / (√(nΣxi²-Σyi²)√(Σxi²+Σyi²-2Σ(xi*yi))),其中xi和yi分别表示X和Y的取值。
检验结果的解释应合 理,不能断章取义, 否则会影响结论的正 确性。
样本数据应真实可靠 ,不能弄虚作假,否 则会导致检验结果失 去意义。
局限性
独立性检验只能用于判断两个分 类变量之间是否独立,无法用于
判断其他变量之间的关系。
独立性检验对样本数据的分布有 一定要求,不适用于所有情况。
01
02
03
定义
Monte Carlo test是一种 通过随机抽样来近似解决 复杂数学问题的计算方法 。
原理
利用随机抽样来模拟样本 分布,从而得出一个近似 解。
应用场景
适用于处理复杂数学问题 、样本分布难以确定或无 法满足正态分布的情况。
03
实例分析
两个分类变量的相关性分析
总结词
通过卡方检验、列联表分析等方法,可 以研究两个分类变量之间的相关性。
THANKS FOR WATCHING
感谢您的观看
定义
Fisher's exact test是一种精确 的卡方检验,用于分析两个分类
变量之间的关联性。
公式
Fisher's exact test基于排列组 合原理,通过对样本数据的可能
情况进行计算,得出p值。
应用场景
适用于样本数据量较小、样本分 布不符合正态分布或近似正态分
布的情况。
Monte Carlo test
• 公式展示:皮尔逊相关系数定义为:r = (nΣ(xi-yi)(xi+yi)-Σ(xi-yi)²) / (√(nΣxi²-Σyi²)√(Σxi²+Σyi²-2Σ(xi*yi))),其中xi和yi分别表示X和Y的取值。
8.3.2独立性检验课件(人教版)
肺癌
合计
非肺癌患者
42
7817
吸烟者
2099
49
2148
合计
9874
91
9965
7775
42
0.9946,
0.0054
7817
7817
吸烟者中不患肺癌和患肺癌的频率分别为
2099
49
0.9772,
0.0228
2148
2148
由
0.0228
4.2
0.0054
可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以
上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明
显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。
六、方法总结
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
P(Y=1|X=0)=P(Y=1|X=1)
三、零假设(原假设)的等价条件:
三、零假设(原假设)的等价条件:
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
问题:根据频率稳定于概率的原理,你能构造一个能对分类变量X和Y的独立性作出推断的统计量吗?
四、卡方统计量:
≈ . 和
因此可以推断乙种疗法的效果比甲种疗法好。
问题2:根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,
为什么会得出不同的结论?
选修1-2《独立性检验》课件
独立性检验的一般步骤: (1)假设两个分类变量X与Y没有关系; (2)计算出K2的观测值k; (3)把k的值与临界值比较确定X与Y有关的程度或 无关系.
(2)分类变量的取值有时可用数字来表示,但这时 的数字除了分类以外没有其他的含义,如用“0” 表示“男”,用“1”表示“女”.
某医疗机构为了了解患肺癌与吸烟是否有 关,进行了一次抽样调查,共调查了9965 个成年人,其中吸烟者2148人,不吸烟者 7817人,调查结果是:吸烟的2148人中49 人患肺癌, ;不吸烟的7817人中42人患肺 癌.
由观测 数据计算 得到随机变量K 2的观测 值k.
(3)如果k≥k0 ,就以(1-P(K2≥k0)) ×100%的把握 认为“X与Y有关系”;否则就说样本观测数据 没有提供“X与Y有关系”的充分证据.
反证法原理与假设检验原理
反证法原理:
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
问题3:能否用数量刻画出“有关”的程度?
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患呼吸道疾 病有关
H0: 吸烟和患肺癌之间没有关系
结论的可靠 程度如何?
不吸烟 吸烟 总计
吸烟与呼吸道疾病列联表
不患肺癌
患肺癌
a
b
c
d
a+c
b+d
不吸烟的人中不患肺癌的比例: 吸烟的人中不患肺癌的比例:
a ab
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例题解析:
例1、在某医院,因为患心脏病而住院的665名男性病 人中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患 心脏病是否有关系;(2)能否在犯错误的概率不超过0.01 的前提下认为秃顶与患心脏病有关系?
(2)分类变量的取值有时可用数字来表示,但这时 的数字除了分类以外没有其他的含义,如用“0” 表示“男”,用“1”表示“女”.
某医疗机构为了了解患肺癌与吸烟是否有 关,进行了一次抽样调查,共调查了9965 个成年人,其中吸烟者2148人,不吸烟者 7817人,调查结果是:吸烟的2148人中49 人患肺癌, ;不吸烟的7817人中42人患肺 癌.
由观测 数据计算 得到随机变量K 2的观测 值k.
(3)如果k≥k0 ,就以(1-P(K2≥k0)) ×100%的把握 认为“X与Y有关系”;否则就说样本观测数据 没有提供“X与Y有关系”的充分证据.
反证法原理与假设检验原理
反证法原理:
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
问题3:能否用数量刻画出“有关”的程度?
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患呼吸道疾 病有关
H0: 吸烟和患肺癌之间没有关系
结论的可靠 程度如何?
不吸烟 吸烟 总计
吸烟与呼吸道疾病列联表
不患肺癌
患肺癌
a
b
c
d
a+c
b+d
不吸烟的人中不患肺癌的比例: 吸烟的人中不患肺癌的比例:
a ab
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例题解析:
例1、在某医院,因为患心脏病而住院的665名男性病 人中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患 心脏病是否有关系;(2)能否在犯错误的概率不超过0.01 的前提下认为秃顶与患心脏病有关系?
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用独立性检验来考察两个分类变量是否有关系, 能较精确地给出这种判断的可靠程度. 具体作法是:
(1)根据实际问题需要的可信程度确定临界值k0;
(2)由观测数据计算得到随机变量K2的观测值k;
(3)如果k>6.635,就以 1-P(K2≥6.635)×100%的 把握认为“X与Y有关系”;否则就说样本观测数据没 有提供“X与Y有关系”的充分证据.
温故夯基
1.上节学习了回归分析的基本方法.线性回归模型y=bx 随机误差e ,其中 +a+e不同于一次函数y=bx+a,含有__________ 解释变量 ,y为__________. 预报变量 x为_________
2.回归直线一定过点 ( x , y ),此为______________. ^ 3. R 表达式中的 (yi- y ) 为确定的数, (yi- y i)2
利用随机变量K2来确定是否能以一定的把 握认为“两个变量有关系”的方法,称为两个 分
类变量的独立性检验。
独立性检验
第一步:H0: 吸烟和患病之间没有关系 第二步:列出2×2列联表
患病 不患病 总计
吸烟 不吸烟 总计
a c a+c
b d b+d
a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量 2 n ad bc 2 K a b c d a c b d 第四步:查对临界值表(教材P13),作出判断。
本节研究的是两个分类变量的独立性检验问题。
某医疗机构为了了解呼吸道疾病与吸 烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不 吸烟者295人,调查结果是:吸烟的220人 中37人患病, 183人不患病;不吸烟的 295人中21人患病, 274人不患病。 根据这些数据能否断定:患病与 吸烟有关吗?
课堂小结:独立性检验的步骤
(1)列出2×2列联表
(2)计算K2的观测值k
(n
样本点的中心
称为____________.
相关指数R 2 来刻画回归的效果, 公式是 : R 2 1
残差平方和
ˆi yi y
n
2
y
i 1
i 1 n
i
y
.
2
(第一课时)
数学选修1--2
学习目标
1.会列2×2列联表,会画等高条形图 2.会从2×2列联表,等高条形图中直观 的判断出两个分类变量之间是否有关?
男 女 总计
喜欢数学课程 不喜欢数学课程 37 85 35 143 72 228
总计 122 178 300
由表中数据计算K2的观测值k 4.513。在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么? 解:在假设“性别与是否喜欢数学课程之间没有关系”的前提 下K2应该很小,并且 P( K 2 3.841) 0.05, 而我们所得到的K2的观测值k 4.513超过3.841,这就意味着 “性别与是否喜欢数学课程之间有关系”这一结论错误的可能 性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程 之间有关系”。
例2 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计 患心脏病 214 451 665 不患心脏病 175 597 772 总计 389 1048 1437
3.了解独立性检验的基本思想和步骤
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量的之间是否有关系
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 独立性检验 分类变量—— 独立性检验
根据列联表的数据,得到
2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772
所以有99%的把握认为“秃顶与患心脏病有关”。
例3.性别与喜欢数学课
为考察高中生的性别与是否喜欢数学课程之间的 关系,在某城市的某校高中生中随机抽取300名学生, 得到如下联表:
2.画出列联表的等高条形图
不患病 比例
患病 比例
吸烟者与不吸烟者患病的可能性存在差异。
例1:随着《新还珠格格》的热播,又掀起了一 场“还珠热”。为了了解喜爱看《新还珠格格》 是 否与性别有关,小欣随机抽查了140名男性和 160名女性,调查发现,男性和女性中分别有80 人和120人喜爱看,其余人不喜爱看。 (1)根据以上数据建立一个2×2的列联表; (2)利用图形判断性别与是否喜爱看《新 还珠格格》有关?
列2×2列联表 为了研究这个问题,我们将上述问题用下表表示:
吸烟 不吸烟 总计 患病 37 21 58 不患病 183 274 457 总计 220 295 515
两个分类变量之间是否有关系?
1.从列联表分别计算患病在两类中的频率。
在不吸烟者中患病的比重是 7.12% 在吸烟者中患病的比重是 16.82% 上述结论能说明吸烟与患病有关吗?
临界值
P( K 2 k ) 0.50
0.40
0.5
0.15
0.10
0.05 0.025 0.010 0.005 0.001
k
0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系” (2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”; (3)如果k>6.635,就有99%的把握认为“X与Y有关系”; (4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”; (5)如果k>3.841,就有95%的把握认为“X与Y有关系”; (6)如果k>2.706,就有90%的把握认为“X与Y有关系”; (7)如果k<=2.706,就认为没有充分的证据显示 “X与Y有关系”.
有一个颠扑不破的真理,那就是当 我们不能确定什么是真的时,我们就 应该去探求什么是最可能的。
笛卡尔
能否用数量来刻画“有关”程度
3.“有关”的可信程度是多少?即有“多少把握 认为有关”呢?——两个分类变量的独立性检 验 患病 不患病 总计
不吸烟
吸烟
总计
a c a+c
b d b+d
a+b c+d a+b+c+d