独立性检验的基本思想及其初步应用课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主题二:独立性检验的基本思想 【自主认知】 1.列联表中|ad-bc|的值与两个分类变量之间相关的强弱有什么关系? 提示:在列联表中,若两个分类变量没有关系,则|ad-bc|≈0,所以|adbc|的值越小,两个分类变量之间的关系越弱;|ad-bc|的值越大,两个分 类变量之间的关系越强.
2.在独立性检验中,计算得k=29.78,在判断变量相关时,P(K2≥6.635) ≈0.01的含义是什么? 提示:P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前 提下认为两个变量相关.
பைடு நூலகம்
【过关小练】 1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得 “吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前 提下认为这个结论是成立的,下列说法中正确的是 ( ) A.100个吸烟者中至少有99人患有肺癌 B.1个人吸烟,那么这个人有99%的概率患有肺癌 C.在100个吸烟者中一定有患肺癌的人 D.在100个吸烟者中可能一个患肺癌的人也没有
根据以上探究,完成以下填空.
独立性检验的基本思想
(1)定义:利用_________K2来判断“两个分类变量_______”的方法称
随机变量
有关系
为独立性检验.
(2)公式:K2=
,其中n=a+b+c+d.
n(ad-bc)2
a bcda cbd
(3)独立性检验的具体步骤:
①定上界:根据实际问题的需要确定容许推断“两个分类变量有关
论“X与Y有关系”.
没有发现足够证据
【合作探究】 根据下表数据,回答下列问题:
P(K2≥k0) k0
P(K2≥k0) k0
0.50 0.455 0.05 3.841
0.40 0.708 0.025 5.024
0.25 1.323 0.010 6.635
0.15 2.072 0.005 7.879
0.10 2.706 0.001 10.828
根据以上探究,完成以下填空.
1.与列联表相关的概念
(1)分类变量:
变量的不同“值”表示个体所属的_________,这样的变量称为分类
变量.
不同类别
(2)列联表:
①列出的_____分类变量的_______,称为列联表.
两个
频数表
②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和
提示:喜欢玩电脑游戏的学生中认为作业多的所占的比例是 ,不喜
2 欢玩电脑游戏的学生中认为作业多的所占的比例是 . 3
8 23
2.某校对学生课外活动(文娱和体育)进行调查,结果整理成下图(两个 深色条的高分别表示男生与女生样本中喜欢文娱的学生的频率):
喜欢文娱的学生中是男生还是女生所占的比例多? 提示:女生.
1.2 独立性检验的基本思想及其初步应用
【阅读教材】 根据下面的知识结构图阅读教材,了解独立性检验的基本步骤及 基本思想.
【知识链接】 1.散点图 散点图可以形象地展示两个变量之间的关系,所以它的主要目的就是 直观了解两个变量之间的关系. 2.用样本估计总体的两种情况 (1)用样本的频率分布估计总体分布. (2)用样本的数字特征估计总体数字特征.
{y1,y2},其样本频数列联表(称为2×2列联表)为:
x1 x2 总计
y1 a c ____ a+c
y2 b d ____ b+d
总计
_a_+_b_ _c_+_d_ ________ a+b+c+d
2.等高条形图
直观性:与表格相比,等高条形图更能直观地反映出两个分类变量间
是否_________. 相互影响
.
提示:由于P(K2≥0.455)≈0.50,故由相关性可知,没有足够证据说明两
变量有关系.
答案:没有足够证据说明两变量有关系
(3)若求得K2的观测值k=56.35,则在说明两变量有关系时应用表格中
k0的值为
.
提示:由于k的数据比较大,故应利用P(K2≥10.828)≈0.001中的
k0=10.828这一数据. 答案:10.828
用途:(1)常用等高条形图展示列联表数据的_________.
(2)判断两个分类变量之间有关系可以通过观频察率等特高征条形图相差很
大的两个量是_____和_____.
a
c
ab cd
【合作探究】 1.分类变量的值就是指的一些具体实数吗? 提示:这里的“变量”和“值”都应作为广义的变量和值来理解,只要 不属于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;上、 下;左、右等.
(1)在判断变量是否有关系时,若K2的观测值k=7.123,则判断两变量有
关系犯错误的概率不超过
.
提示:由表格可知P(K2≥6.635)≈0.010,
而k=7.123>6.635,故应填0.010.
答案:0.010
(2)若求得K2的观测值k=0.70,则由表格数据可知,两变量之间的关系
应该表述为
2.等高条形图与列联表相比有何优点? 提示:更直观,更明了. 3.利用等高条形图能否精确地判断两个分类变量是否有关系?为什么? 提示:不能,因为通过等高条形图,可以粗略地判断两个分类变量是否 有关系,但这种判断无法精确地给出所得结论的可靠程度.
【过关小练】 1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
【解析】选D.在四幅图中,D图中两个阴影的高相差最明显,说明两个 分类变量之间关系最强.
2.对两个分类变量进行独立性检验的主要作用是 ( ) A.判断模型的拟合效果 B.对两个变量进行相关分析 C.给出两个分类变量有关系的可靠程度 D.估计预报变量的平均值 【解析】选C.独立性检验的目的就是明确两个分类变量有关系的可靠 程度.
系”犯错误概率的上界α,然后查表确定________. ②计算:利用公式计算随机变量K2的_____临__界_.值k0 ③下结论:如果_____,就推断“X与Y观有测关值系k”,这种推断犯错误的概
率不超过α,否则k≥,就k0认为在_____________不超过α的前提下不能
推断“X与Y有关系”,或者在犯样错本误数的据概中率_________________支持结
主题一:列联表与等高条形图 【自主认知】 1.某班主任对全班50名学生作了一次调查,所得数据如表:
喜欢玩电脑游戏 不喜欢玩电脑游戏
总计
认为作业多 18 8 26
认为作业不多 9 15 24
总计 27 23 50
喜欢玩电脑游戏的学生中认为作业多的所占的比例是多少?不喜欢玩
电脑游戏的学生中认为作业多的呢?