3.2独立性检验的基本思想及其初步应用(一)
《独立性检验的基本思想及其初步应用(第1课时)》教学设计
1.1.2 独立性检验的基本思想及其初步应用第一课时(谷杨华)一、教学目标1.核心素养通过学习独立性检验的基本思想及其初步应用,初步形成基本的数据分析能力,培养数学运算能力.2.学习目标(1)1.1.1.1 了解分类变量的概念(2)1.1.1.2 了解等高条形图、列联表概念,学会用列联表、等高条形图直观判断分类变量的关系(3)1.1.1.3 了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系3.学习重点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系4.学习难点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系二、教学设计(一)课前设计1.预习任务任务1阅读教材P10-P12,思考什么是分类变量,列联表如何画?任务2有哪些方法可以直观判断两个分类变量是否有关系?2.预习自测1.下列不是分类变量的是()A.近视B.身高C.血压D.药物反应解:B.判断一个量是否是分类变量,只需看变量的不同值是否表示个体的不同类别,A,C,D选项的不同值都可以表示个体的不同类别,只有B选项的不同值不表示个体的不同类别.2.下面是一个22⨯列联表则表中a,b A. 94,96 B. 52,50 C. 52,54 D. 54,52 解:C(二)课堂设计 1.知识回顾(1)线性回归方程:∧∧∧+=a x b y ,其中:1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(2)回归分析:是对具有相关关系的两个变量进行的统计分析的一种常用方法. (3)线性回归模型:y bx a e =++其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是分类变量?●活动一 理论研究,概念学习—分类变量在现实生活中,会遇到各种各样的变量,如果要研究它们之间的关系,观察下面两组变量,分析在取不同的值时表示的个体有何差异?变量的不同“值”表示个体所属的不同类别,像这样的变量成为分类变量. (1) 分类变量也称为属性变量或定性变量,它的不同值表示个体所属的不同类别. (2) 分类变量的取值一定是离散的,如性别只取男、女两个值.(3) 可以把分类变量的不同取值用数字表示,如用0表示男,1表示女,这是性别变量就成了取值为0和1的随机变量,但这些数字的大小没有意义. 分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍等问题探究二 如何研究两个分类变量之间是否有关系?在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响? ●活动一 实例探究,引出问题例1 为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表格 1那么吸烟是否对患肺癌有影响?估计吸烟者与不吸烟者患病的可能性差异?●活动二 实例探究,引出概念 1.列联表类似于上面的表格这样列出两个分类变量的频数表,称为列联表.即列联表是两个或者两个以上分类变量的频数表,书中仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表成为2×2列联表.一般的,假设有两个分类变量X 和Y ,它们的取值分别为{}21,x x 和{}21,y y ,其样本频数列联表为:1y 2y总计1x a bb a + 2xcd d c + 总计c a +b d +d c b a +++其中d c b a +++是样本容量. ●活动三 利用旧知,研究问题 利用频率分布表判断;由患肺癌在吸烟者与不吸烟者中的频率差异可粗略估计吸烟对患肺癌有影响; ●活动四 学习新知,对比研究与表格相比,图形更能直观的反映出两个分类变量间是否相互影响,我们常用等高条形图展示列联表数据的频率特征. 2.等高条形图利用等高条形图来分析两个分类变量之间是否具有相关关系,可以形象、直观地反映两个分类变量之间的总体状态和差异大小,进而判断它们之间是否具有相关关系.(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两行的数据对应不同的颜色.(2)等高条形图中由两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系.下图是吸烟与是否患肺癌的等高条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌由条形图可以发现,在吸烟样本中,患肺癌的频率要高些,因此直观上可以认为吸烟更容易引发肺癌.例2 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关? 【知识点:分类变量,等高条形图】详解根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计44956 1 000根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.点拨:利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b 与cc+d相差越大,两个分类变量有关系的可能性就越大.问题探究三如何从统计学方面研究两个分类变量之间是否有关系?重点、难点知识★▲通过数据和图形分析,我们得到的直观判断是“吸烟和患肺癌有关”那么这种判断是否可靠?我们通过统计分析回答这个问题.为研究的一般性,在列联表中用字母代替数字为了回答上述问题,我们先假设H:吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小. 根据表1中的数据,利用公式(1)计算得到2K 的观测值为632.5691987421487817)209942497775(99652≈⨯⨯⨯⨯-⨯=k这个值到底能告诉我们什么呢?统计学家经过研究后发现,在0H 成立的情况下, 2( 6.635)0.01P K ≥≈ (2)在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似为0.010,是个小概率事件.现在2K 的观测值632.56≈k ,远远大于635.6,所以有理由断定0H 不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过010.0.上面这种利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验. 3.课堂总结【知识梳理】(1)变量的不用“值”表示个体所属的不同类别,像这样的变量成为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)设0H :吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小.【重难点突破】(1)列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.一般地,在等高条形图中,a a +b 与cc +d 相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否有关的步骤:4.随堂检测1.独立性检验中,可以粗略地判断两个分类变量是否有关的是( ) A. 残差B. 等高条形图C.假设检验的思想D.以上都不对【知识点:独立性检验】 解: B.2.分类变量X 和Y 的列联表如下,则( )A. ad bc -越小,说明X 与Y 的关系越弱B. ad bc -越大,说明X 与Y 的关系越强C. 2()ad bc -越大,说明X 与Y 的关系越强 D. 2()ad bc -越接近于0,说明X 与Y 关系越强【知识点:独立性检验】解:C 2K 越大, 2()ad bc -越大, 犯错误的概率的越小,说明X 与Y 的关系越强. 3..在一次独立性检验中,得出2×2列联表如下:最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( ) A.200 B.720 C.100 D.180 【知识点:独立性检验】解:B 分类变量x 和y 没有任何的关系,所以,得到720=m ,故选B. 4.在一个2×2列联表中,由其数据计算得到K 2的观测值k =13.097,则其两个变量间有关系的可能性为( ) A.99.9% B.95% C.90% D.0 附表:【知识点:独立性检验】解:A 因为所求的213.09710.828k ,故可能性为99.9%,所以选A.5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则至少有 _的把握认为“学生性别与是否支持该活动有关系”. 附:【知识点:独立性检验】 解:99﹪ (三)课后作业基础型 自主突破 1.下面说法正确的是( )A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关 【知识点:独立性检验】 解:B2.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )【知识点:独立性检验】 解:D3.确定结论“X 与Y 有关系”的可信度为95℅时,则随机变量2k 的观测值k 必须( ) A.大于828.10 B.大于841.3 C.小于635.6 D.大于706.2 【知识点:独立性检验】解:B 通过表中的数据可知可信度为95℅时2 3.841kP (K 2≥k 0) 0.05 0.025 0.010 0.005 0.001 k 03.8415.0246.6357.87910.8284. 想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( ) A.H 0:男性喜欢参加体育活动 B.H 0:女性不喜欢参加体育活动 C.H 0:喜欢参加体育活动与性别有关 D.H 0:喜欢参加体育活动与性别无关 【知识点:独立性检验】 解: D5.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是( ) A .K 越大," X 与Y 有关系”可信程度越小; B . K 越小," X 与Y 有关系”可信程度越小; C . K 越接近于0," X 与Y 无关”程度越小 D . K 越大," X 与Y 无关”程度越大 【知识点:独立性检验】 解: B能力型 师生共研6.若有%9.99的把握说事件A 与事件B 有关,那么具体算出的2K 的观测值k 一定满足( )A.828.10>kB.828.10<kC.635.6>kD.635.6<k 【知识点:独立性检验】 解: A7.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:(D ) A.a =5,b =4,c =3,d =2 B.a =5,b =3,c =4,d =2 C.a =2,b =3,c =4,d =5 D.a =3,b =2,c =4,d =5 【知识点:独立性检验】 解: D8.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2⨯2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论为:有 把握认为“学生性别与支持该活动有关系”【知识点:独立性检验】解: 99% 【解析】根据6.6357.06910.828<<,所以犯错误率低于1%,所以应该有99%的把握,认为“学生性别与支持该活动有关系” ,探究型 多维突破9.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少? (2)试运用独立性检验的思想方法点拨:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)【知识点:独立性检验,古典概型】解:(1)积极参加班级工作的学生有24人,总人数为50人,概率为25125024=; 不太主动参加班级工作且学习积极性一般的学生有19人,概率为5019.(2)5.111315026242524)761918(5022≈=⨯⨯⨯⨯-⨯⨯=K , ∵828.102>K ,∴有%9.99的把握说学习积极性与对待班级工作的态度有关系.10.2016年夏季奥运会将在巴西里约热内卢举行,体育频道为了解某地区关于奥运会直播的收视情况,随机抽取了100名观众进行调查,其中40岁以上的观众有55名,下面是根据调查结果绘制的观众准备平均每天收看奥运会直播时间的频率分布表(时间:分钟):将每天准备收看奥运会直播的时间不低于80分钟的观众称为“奥运迷”,已知“奥运迷”中有10名40岁以上的观众.(1)根据已知条件完成下面的22⨯列联表,并据此资料你是否有认为“奥运迷”与年龄有关?(2)将每天准备收看奥运会直播不低于100分钟的观众称为“超级奥运迷”,已知“超级奥运迷”中有2名40岁以上的观众,若从“超级奥运迷”中任意选取2人,求至少有1名40岁以上的观众的概率.【知识点:独立性检验,概率统计】解:(1)由频率分布表可知,在轴取的100人中,“奥运迷”有25人,从完成22⨯列联表如下:因为3.030 3.841<,所以没有“奥运迷”与年龄有关.(2)由频率分布表可知,“超级奥运迷”有5人,从而所有可能结果所组成的基本事件空间为:()()()()()()()()()(){}12132311122122313212,,,,,,,,,,,,,,,,,,,a a a a a a a b a b a b a b a b a b b b Ω=其中i a 表示男性,1,2,3,i i b =表示女性,1,2i =.Ω由10个基本事件组成,且是等可能的,用A 表示事件“任意选2人,至少有1名40岁以上观众”,则()()()()()()(){}11122122313212,,,,,,,,,,,,,A a b a b a b a b a b a b b b =,即事件A 包含7个基本事(四)自助餐1.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.a a +b 与dc +d B.c a +b 与a c +d C.a a +b 与c c +d D.a a +b 与c b +c【知识点:独立性检验】 解: C2.为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A.平均数 B.方差 C.回归分析 D.独立性检验 【知识点:独立性检验】解: D 本例考查学生眼睛的“近视”与“性别”两件事情之间是否存在相关性,从给出的数据可以列出22⨯列联表,所以适合用独立性检验.3.在一个2×2列联表中,由其数据计算得K 2的观测值k =7.097,则这两个变量间有关系的可能性为 ( )A.99%B.99.5%C.99.9%D.无关系 【知识点:独立性检验】解: A 由表格数据可知k =7.097>6.635,所以这两个变量间有关系的可能性为99%4.某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否抽烟及是否患有肺病得到22⨯列联表,经计算得231.52=K ,已知在假设吸烟与患肺病无关的前提条件下,01.0)635.6(,05.0)841.3(22=≥=≥K P K P .则该研究所可以( )A.有%95以上的把握认为“吸烟与患肺病有关”B.有%95以上的把握认为“吸烟与患肺病无关”C.有%99以上的把握认为“吸烟与患肺病有关”D.有%99以上的把握认为“吸烟与患肺病无关” 【知识点:独立性检验】解: A 因为2 5.231 3.841K =>,而2( 3.841)0.05P K ≥=,故有有%95以上的把握认为“吸烟与患肺病有关”5.2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见, 2452名女性中有1200名持反对意见,在运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是( ) A.茎叶图 B.分层抽样 C.独立性检验 D.回归直线方程 【知识点:独立性检验】解:C 这是独立性检验,因为这里有两个分类变量,一个是性别分为男女,一个是意见分为支持和反对,这样就构成一个22⨯联表,用独立性检验来验证“人机大战是人类的胜利”是否有关系.6.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是( )A.成绩B.视力C.智商D.阅读量【知识点:独立性检验】解:D由表中数据可得:表1:()25262210140.00916362032K⨯⨯-⨯=≈⨯⨯⨯;表2:()25242012161.76916362032K⨯⨯-⨯=≈⨯⨯⨯;表3:()2528241281.316362032K⨯⨯-⨯=≈⨯⨯⨯;表4:()25214302623.4816362032K⨯⨯-⨯=≈⨯⨯⨯.其中23.48最大,所以阅读量与性别有关联的可能性最大.7.如下表是对于喜欢足球与否的统计列联表依据表中的数据,得到2K.【知识点:独立性检验】解:228542122854.77245406817k⨯-⨯==⨯⨯⨯.8.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.【知识点:独立性检验】解:0.05 因随机变量K2的观测值k=4.013>3.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.9.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.【知识点:独立性检验】解:1%10.某学校对该校学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【知识点:独立性检验】解:作列联表如下:性格内向性格外向总计考前心情紧张332 213 545考前心情不紧张94 381 475总计426 594 1020 相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类型有关.11.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率;(3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.【知识点:独立性检验,分层抽样,概率统计】解:(1)x=10,y=7;(2)甲乙分别为;25%,40%(3)见解析.试题分析:(1)由题为分层抽样,可确定出甲乙两个学校分别抽取的人数,然后结合频数表,可求出x,y的值;(2)由题给出了优秀的标准,结合给出的表格,可分别求甲乙学校的数学成绩的优秀率,(即由每个学校优秀的人数除以它们的人数);(3)由题为独立性检验;可先做出二列联表,再代入独立性检验的公式,求出2K,对应参考值可下结论.试题解析:(1)甲校抽取人,乙校抽取人,故x=10,y=7,(240%.(3)表格填写如图,k2>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
高中数学《第三章统计案例复习参考题》11PPT课件
(第1课时)
有人说:吸烟有害 健康!吸烟会引发肺癌.
另一些人说:吸烟 不影响健康.理由是, 有的吸烟老人却很长寿。
那么吸烟是否对患 肺癌有影响?
1.(1)理解独立性检验的基本思想及实施步骤. (2)会从列联表(只要求2×2列联表)、等高条形图直观分析 两个分类变量是否有关. (3)会用K2公式判断两个分类变量在某种可信程度上的相关 性. 2.(1)通过本节课的学习,感受数学与现实生活的联系,体 会独立性检验的基本思想在解决日常生活问题中的作用. (2)培养学生运用数学知识作出合理猜测,理性论证的思考 习惯.
假设H0 等价于P(AB)= P(A)P(B)
不吸烟 吸烟 总计
吸烟与肺癌列联表
不患肺癌
患肺癌+c
b+d
总计 a+b c+d a+b+c+d
P(A)=
a
+ n
b
,P(B)=
a
+ n
c
,P(AB)=
a n
其中n = a + b + c + d
在H
0
成
立
的
条
件
下
应
该
有a:≈ n
a
+ n
b
×
a
相应的等高条形图如图所示.比较来说,可以在 某种程度上认为" 秃顶与患心脏病有关".
例2.为考察高中生性别与是否喜欢数学课程之间的关系, 在某城市的某校高中生中随机抽取300名学生,得到如下 列联表:
性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
第三章--统计案例-3.2-独立性检验的基本思想及其初步应用
解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验
步
骤
③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.
3.2.2独立性检验的基本思想及其初步应用教案
学校:二中 学科:数学 编写人: 游恒涛 审稿人:马英济3.2.2独立性检验的基本思想及其初步应用教学目标通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用K 2进行独立性检验.教学重点:独立性检验的基本方法 教学难点:基本思想的领会及方法应用 教学过程 一.学生活动练习:(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据?女教授人数,男教授人数,女副教授人数,男副教授人数。
(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到 K 2250(1320107) 4.84423272030⨯⨯-⨯=≈⨯⨯⨯,∵K 2 3.841≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%)附:临界值表(部分):P (K 2≥k 0)0.10 0.05 0.025 0.010 k 02.7063.8415.0246.635二.数学运用例1 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 喜欢数学课程 不喜欢数学课程 总 计 男 37 85 122 女 35 143 178 总 计72228300由表中数据计算得到2K 的观察值 4.514k ≈. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么? (学生自练,教师总结)强调:①使得2( 3.841)0.05P K ≥≈成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确; ②结论有95%的把握认为“性别与喜欢数学课程之间有关系”的含义;③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算2K 的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视.专业性别非统计专业 统计专业男13 10 女7 20例2、为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示。
独立性检验的基本思想及其初步应用
如果“吸烟与患肺癌没有关系”,那么吸烟样
本中不患肺癌的比例应该与不吸烟样本中相应的比
例差不多.
所以
a a+
b
c
c +d
,
所以 a c + d ca + b,
ad bc
即 ad bc 0.
︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱;
︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
患心脏病 患其他病 总计
秃顶
214
175
389
不秃顶
451
597
1 048
总计
665
772
1 437
(1)相应的等高条形图如下所示,
不患心脏病 患心脏病
秃顶
不秃顶
由图可认为秃顶与患心脏病有关系
吸烟与患肺癌列联表(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7 775
42
7 817
吸烟
2 099
49
2 148
总计
9 874
91
9 965
在不吸烟者中患肺癌的比重是__0_._5_4_%_,
在吸烟者中患肺癌的比重是__2_._2_8_%_.
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大.
K2
(n ad bc)2
(a b)(c d )(a c)(b d )
临界值表:
P ( K 2 k 0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k 0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
选修2-3《独立检验的基本思想及其应用》教案
教材:普通高中课程标准实验教科书数学选修32 人教A版章节:2.3独立性检验的基本思想及其初步应用一、内容和内容解析本节课是人教A版(选修)2—3第三章第二单元第一课时的内容.理论性比较强,很多教师为了图省事,在教学过程中采用学生看书自学的方式,我认为不妥。
结合课本内容,拟用两节课的时间完成整节的教学内容,本节为第一节。
山东省教育厅在2010年9月15日“关于印发山东省普通高中学科教学内容调整意见二、教学目标分析1.目标:①知识与技能目标通过生活中案例的探究,理解独立性检验的基本思想,明确独立性检验的基本步骤,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。
②过程与方法目标通过探究引出独立性检验的问题,借助样本数据的列联表分析独立性检验的实施步骤。
③情感态度价值观目标通过本节课的学习,加强数学与现实生活的联系。
以科学的态度评价两个分类变量有关系的可能性。
培养学生运用所学知识,解决实际问题的能力。
教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。
2.目标解析:在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题的应用,以提高我们处理生活和工作中的某些问题的能力.新课标指出:学生的数学学习内容应当是现实的、有趣的和富有挑战性的。
从心理学的角度看,青少年有一种好奇的心态、探究的心理。
因此,紧紧地抓住学生的这一特征,利用学生身边的问题设计教学情境,使学生在观察、讨论等活动中,逐步提高数学能力。
本节课学生应该了解的几个问题:1、判断两个分类变量是否有关的几种方法及其不同点⑴列联表⑵三维柱形图⑶二维条形图⑷等高条形图⑸独立性检验的思想及应用2、独立性检验的思想与反证法思想的比较3、k2表达式及k2值表的含义三、教学问题诊断分析1.课本上k2的结构比较复杂,来的也比较突然,学生可能会提出疑问.关于这个问题,可借助两件事独立的定义以及样本容量较大时可以用频率近似表示概率来解决。
3.2独立性检验的基本思想及其初步应用 课件(人教A版选修2-3)
3. 独立性检验临界值表
P(K2 ≥k 0 ) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
想一想:在K2运算时,在判断变量相关时,若K2的观测值k= 56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001, 哪种说法是正确的? 提示 两种说法均正确.
兴趣不浓厚的
总计
86
73
103
95
189
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得 K 的观测值
解 由公式得 K 的观测值 86×103×95×94
2
189× 64×73-22×30 k189 = ×64×73-22×302 ≈38.459. 86 × 103 × 95 × 94 k= ≈38.459.
想一想:如何理解分类变量?
提示
(1)这里的“变量”和“值”都应作为“广义”的变量和值
来理解.例如:对于性别变量,其取值有“男”和“女”两 种,这里的“变量”指的是“性别”,这里的“值”指的是“男”
或“女”.因此,这里说的“变量”和“值”不一定是取具体的
数值. (2)分类变量是大量存在的.例如:吸烟变量有吸烟与不 吸烟两种类别,而国籍变量则有多种类别.
2.独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验
公式
n ad-bc2 a+bc+da+c b+d K2=_______________________ 其中n=___________ a+b+c+d
独立性检验的基本思想及其初步应用教学设计-【通用,经典教学资料】
3.2.1 《独立性检验的基本思想及其初步应用》教学设计【教学目标】1.知识与技能:通过对典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能解决实际问题。
2.过程与方法:通过设置问题,引导学生自主发现、合作探究、归纳展示、质疑对抗,使学生成为课堂主体。
3.情感、态度与价值观:通过本节课学习,让学生体会统计方法在决策中的作用;合作探究的学习过程,使学生感受发现、探索的乐趣及成功展示的成就感,培养学生学习数学知识的积极态度。
【教学重点】了解独立性检验的基本思想及实施步骤。
【教学难点】独立性检验的基本思想;随机变量2K的含义。
【学情分析】本节课是在学习了统计、回归分析的基本思想及初步应用后,利用独立性检验进一步分析两个分类变量之间是否有关系,为以后学习统计理论奠定基础。
【教学方式】多媒体辅助,合作探究式教学。
【教学过程】一、情境引入,提出问题请看视频:[设计意图说明]好的课堂情景引入,能激发学生的求知欲,是新问题能够顺利解决的前提之一。
问题1、你认为吸烟与患肺癌有关系吗?怎样用数学知识说明呢?[设计意图说明]提出问题,引导学生自主探究,指明方向,步步深入。
二、阅读教材,探究新知1.分类变量对于性别变量,其取值为男和女两种:[设计意图说明]利用图像向学生展示变量的不同取值,更加形象的表示分类变量的概念。
这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。
生活中有很多这样的分类变量如:是否吸烟宗教信仰国籍民族……2.列联表为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表3—7 吸烟与患肺癌列联表单位:人不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965究每个分类变量只取两个值,这样的列联表称为22 列联表)。
问题1、吸烟与患肺癌有关系吗?由以上列联表,我们估计①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为。
独立性检验
不
独立性检验的定义
上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
二:求解假设检验问题
考虑假设检验问题: 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路: 求解思路: 1. 在H0成立的条件下,构造与 0矛盾的小概 成立的条件下,构造与H 率事件; 率事件; 2. 如果样本使得这个小概率事件发生,就能 如果样本使得这个小概率事件发生, 以一定把握断言H 成立;否则, 以一定把握断言 1成立;否则,断言没有 发现样本数据与H 相矛盾的证据。 发现样本数据与 0相矛盾的证据。
的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?
这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大
0
就认为“两个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k
独立性检验的基本思想及其初步应用(一)
第43课时独立性检验的基本思想及其初步应用(一)学习目标:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.教学重点;理解独立性检验的基本思想及实施步骤;教学难点:了解独立性检验的基本思想、了解随机变量2K的含义教学工具:Powerpoint、Excel教学过程:(一)复习引入1、回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.2、观察下列图片,吸烟与患肺癌有关系吗?你有多大程度把握吸烟与患肺癌有关?(二)推进新课问题1、我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?引出两个新概念.①分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别.如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).如吸烟与患肺癌的列联表:一般我们只研究每个分类变量只取两个值,这样的列联表称为22.思考:由以上列联表,我们估计吸烟是否对患肺癌有影响?方法一:①在不吸烟者中患肺癌的比例为0.54%;②在吸烟者中患肺癌的比例为2.28%. 因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异. 方法二:我们还能够从图形中得到吸烟与患肺癌之间的关系吗? 如右图,是等高条形图展示列联表数据的频率特征,其中浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.比较两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.通过数据和图形分析,我们得到的直观判断是1H :吸烟和患肺癌有关,那么这种判断是否可靠呢? 思考:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?为了解决上述问题,我们先假设1H 不成立,即 0H :吸烟与患肺癌没有关系.设事件A 表示不吸烟,事件B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,由事件相互独立性性质,则“不吸烟与不患肺癌也是相互独立”的,即假设0H 成立等价于 ()()()P AB P A P B =由表可知,a 恰好为事件AB 发生的频数;a b +和a c +恰好分别为事件A 和事件B发生的频数,由于频率近似于概率,所以()()()P AB P A P B =成立时应该有 n c a n b a n a +⨯+≈,其中d c b a n +++=为样本容量,即))(()(c a b a a d c b a ++≈+++ 即bc ad ≈也就是说0H : “吸烟与患肺癌没有关系”成立的充要条件是bc ad ≈,那么这个式子到底能从量上告诉我们什么,怎样来进一步刻画?我们知道bc ad ≈,也就是说bc ad ,的值很接近,那么||ad bc -应该非常接近于0,于是有:问题:||ad bc -的大小说明什么问题?||ad bc -越小,说明0H 成立,即吸烟与患肺癌之间关系越弱; ||ad bc -越大,说明0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.重新审视问题:若0H :吸烟与患肺癌没有关系成立,则2K 应该很小.由上公式计算得到2K 的观测值为29965(777549422099)56.63278172148987491k ⨯-⨯=≈⨯⨯⨯ 这个值到底能告诉我们什么呢?显然,2K 的观测值“很大”,我们有理由认为0H 不成立,即1H 成立,吸烟与患肺癌之间有关系.值得注意的是“很大”是一个什么标准,在样本测量中必须有一个标准——临界值!于是统计学家经过研究发现,在0H 成立的情况下,2( 6.635)0.010.P K ≥≈(小概率事件,发生概率不到5%的事件)这里临界值为6.635,即在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似于0.010,是一个小概率事件.也就是说,正常情况下(0H 成立的情况下)2K 的观测值有(以大概率)99%的时候小于6.635.到此,我们就明白了,2K =56.632≥6.635,发生了一个小概率事件,违背了正常情况(0H 成立),所以1H 成立,吸烟与患肺癌之间有关系.上面的过程实际上借助于随机变量2K 的观测值k ,建立了一个判断0H 是否成立的规则:如果 6.635k ≥,就判断0H 不成立,即吸烟与患肺癌有关系;否则就判断0H 成立,即吸烟与患肺癌没有关系.在该规则下,把结论“0H 成立”错判成“0H 不成立”的概率不会超过2( 6.635)0.010.P K ≥≈,即有99%的把握认为0H 不成立.知识形成1、分类变量:变量的不同“值”表示个体所属不同类别的变量称为分类变量.分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别. 2、列联表:分类变量的汇总统计表(频数表). 如吸烟与患肺癌的列联表.一般我们只研究每个分类变量只取两个值,这样的列联表称为22⨯.3、独立性检验:这种利用随机变量2K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.4、独立性检验基本思想的形成过程:第一步:提出假设检验问题0H:吸烟与患肺癌没有关系↔ 1H :吸烟与患肺癌有关系;第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大;(三)典例分析1、已知分类变量的列联表如下:和Y X 则下列说法正确的是( C )A bc ad -越小,说明Y 和X 关系越弱B bc ad -越大,说明Y 和X 关系越强C 2)(bc ad -越大,说明Y 和X 关系越强D 2)(bc ad -越接近于0,说明Y 和X 关系越强2、根据右边等高条形图,可知男女性别与患色盲 有 关系(填“有”或“没有”) 3、统计假设:0H )()()(B P A P AB P ⋅=成立时,有 以下判断:①)()()(B P A P B A P ⋅=;②)()()(B P A P B A P ⋅=;③)()()(BP A P B A P ⋅=其中真命题的个数是( C ) A 1 B 2 C 3 D 03、某大学要研究性别与职称(教授与副教授)之间是否有关系,你认为应该收集哪些数据女教授的人数,男教授的人数,女副教授的人数,男副教授的人数 .4、为了调查高中生的数学成绩和物理成绩的关系,在某校随机抽取部分学生调查,得到如下两个图表:根据以下图表,完成以下列联表5、在研究新措施对防治猪白痢是否有效时,得观测结果如上表右,试作出二维条形图并判断新措施对防治猪白痢是否有效? 解:作出二维条形图如下图所示,从二维条形图中,可以估计在新措施中的死亡数所占的比例为15018,在对照组中死亡数所占的比例为15036,二者的差值为15018|1503615018|=-,差别很大,因此从二维条形图中我们可以看出新措施对防治猪白痢是有效的.(四)课时小结1、独立性检验的基本思想;2、独立性检验的操作步骤;3、了解2×2列联表的意义与能识别二维条形图和等高条形图. (五)作业 P 97练习。
独立性检验的基本思想及其初步应用(含答案)
3.2 独立性检验的基本思想及其初步应用1.下面是一个2×2列联表:则表中a 、b ( D ). A .94、96 B .52、50 C .52、60 D .54、52 2.下列关于等高条形图的叙述正确的是 ( C ). A .从等高条形图中可以精确地判断两个分类变量是否有关系 B .从等高条形图中可以看出两个变量频数的相对大小 C .从等高条形图可以粗略地看出两个分类变量是否有关系 D .以上说法都不对3.关于分类变量x 与y 的随机变量K 2的观测值k ,下列说法正确的是 ( B ).A .k 的值越大,“X 和Y 有关系”可信程度越小B .k 的值越小,“X 和Y 有关系”可信程度越小C .k 的值越接近于0,“X 和Y 无关”程度越小D .k 的值越大,“X 和Y 无关”程度越大4.若由一个2×2列联表中的数据计算得k =4.013,那么在犯错误的概率不超过__0.05______的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)中数据,得到k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为___0.05___.6.在二维条形图中,两个比值( )相差越大,要推断的论述成立的可能性就越大。
A .b a a +与dc c + B .d c a +与b a c + C . d a a +与c b c + D . d b a +与ca c + 7.下列关于2K 的说法中正确的是( C )A .2K 在任何相互独立问题中都可以用来检验有关还是无关B .2K 的值越大,两个事件的相关性就越大C .2K 是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合D .2K 的观测值k 的计算公式为 ))()()(()(d b c a d c b a bc ad n k ++++-=8.在吸烟与患肺癌这两个分类变量的计算中,下列说法正确的是( C )。
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用一、教学目标1. 让学生理解独立性检验的基本思想,掌握独立性检验的步骤和应用。
2. 培养学生运用独立性检验解决实际问题的能力,提高学生的数据分析素养。
3. 引导学生运用数学软件或计算器进行独立性检验,培养学生的操作能力。
二、教学内容1. 独立性检验的基本思想(1)理解独立性检验的定义和作用。
(2)掌握独立性检验的基本步骤:提出假设、构造检验统计量、确定显著性水平、计算临界值、做出结论。
2. 独立性检验的初步应用(1)学会运用独立性检验解决实际问题,如判断两个分类变量是否独立。
(2)学会运用数学软件或计算器进行独立性检验,提高数据分析能力。
三、教学重点与难点1. 教学重点:(1)独立性检验的基本思想及步骤。
(2)独立性检验在实际问题中的应用。
(3)运用数学软件或计算器进行独立性检验。
2. 教学难点:(1)独立性检验步骤中构造检验统计量的方法。
(2)如何正确选择显著性水平。
四、教学方法与手段1. 教学方法:(1)讲授法:讲解独立性检验的基本思想和步骤。
(2)案例教学法:分析实际问题,引导学生运用独立性检验。
(3)实践操作法:让学生运用数学软件或计算器进行独立性检验。
2. 教学手段:(1)多媒体课件:展示独立性检验的基本思想和步骤。
(2)数学软件或计算器:让学生进行实际操作。
五、教学过程1. 导入新课:通过一个实际问题引入独立性检验的概念,激发学生的兴趣。
2. 讲解独立性检验的基本思想:讲解独立性检验的定义、作用和基本步骤,让学生理解独立性检验的基本思想。
3. 案例分析:分析一个实际问题,引导学生运用独立性检验,体会独立性检验在解决实际问题中的应用。
4. 实践操作:让学生运用数学软件或计算器进行独立性检验,培养学生的操作能力。
5. 总结与反思:总结本节课的主要内容,让学生巩固所学知识,并思考如何更好地运用独立性检验解决实际问题。
六、教学拓展1. 引导学生探讨独立性检验在实际应用中的局限性,如样本量对检验结果的影响。
独立性检验的基本思想及其初步应用导学(谢成志)
3.2独立性检验的基本思想及其初步应用【学习目标】通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题。
【学习过程】问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表 患肺癌 不患肺癌 总计 吸烟 49 2099 2148 不吸烟 42 7775 7817 总计9198749965那么吸烟是否对患肺癌有影响? 直观上来判断:在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______% 由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.但,这种“差异”有多大呢?能够有一个评判的标准呢?我们可以通过以下的统计分析回答这个问题。
独立性检验:1、把上表中数字用字母代替,得到如下用字母表示的列联表:吸烟与肺癌列联表 不患肺癌 患肺癌 总计 吸烟 a b a+b 不吸烟 c d c+d 总计a+cb+da+b+c+d2、假设0H :吸烟与患肺癌没有关系那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即: __________________________________________因此:bcad -越小说明吸烟与患肺癌之间的关系______.反之,则_____3、计算2K为了使不同样本变量的数据有统一的评测标准,构造一个随机变量2K = _________________________________________________________ 其中_______________=n 为样本容量.从而,若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该_______,反之,2K 应该___________。
上题2K =56.632.这个值到底能告诉我们什么?能从中得到什么结论? 4、查表 P (2K >k0) 0.50 0.40 0.25 0.15 0.10 k0 0.4550.7081.3232.0722.706P (K2>k0) 0.05 0.025 0.010 0.005 0.001 k03.8415.0246.6357.87910.828上题中2K =56.632>10.828,所以001.0)828.10(2=>K P 该数据表明了在假设0H 成立的情况下,2K 的值大于10.828的概率非常小,为0.001,是一个小概率事件。
独立性检验的基本思想及其初步应用
【解】 根据题目所给数据得如下 2×2 列联表:
(a c)(b d) n(a b)(c d)
课堂练习
1.下列关于等高条形图的叙述正确的是( ) A.从等高条形图中可以精确地判断两个分类变量是否有关系 B.从等高条形图中可以看出两个变量频数的相对大小 C.从等高条形图可以粗略地看出两个分类变量是否有关系 D.以上说法都不对 解析:选 C.在等高条形图中仅能粗略判断两个分类变量的关 系,故 A 错.在等高条形图中仅能找出频率,无法找出频数, 故 B 错.
有关概念:分类变量
对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称 为分类变量.如是否吸烟、是否患肺癌、宗教信仰、国 籍等等
在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系?等等.
“美图”欣赏
列联表 2×2 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
查对临界值表,作出判断。(如果K2值很大,就断言 H0不成立,即认为“两个分类变量有关系”;如果很 小,则说明在样本数据中没有发现足够证据拒绝H0。)
例题解析:
例1. 在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶;而另外772名不是因为患心脏病而住院的 男性病人中,有175人秃顶. 利用图形判断秃顶与患心脏 病是否有关系。能否在犯错误的概率不超过0.010的前 提下认为秃顶与患心脏病有关系?
9965(7775 49 42 2099)2
k
56.632.
7817 2148 9874 91
在H0成立的情况下,统计学家估算出如下的概率:
P(K 2 6.635) 0.01
3.2_独立性检验的基本思想及其初步应用
例2.在研究某种新药对小白兔的防治效果时,得到下表 数据:
未用新药 用新药
总计
存活数 101 129 230
死亡数 38 20 58
总计 139 149 288
试分析新药对防治小白兔是否有效?
k
288 101 20 38 129 139 149 230 58
2
8.658 7.879
(1).根据实际问题的需要确定容许推断“两个 分类变量有关系”犯错误概率得上界 ,但是这 种判断不精确. (2)在二维条形图中,两个比例的值相差越大, H1成立的可能变量是否有关系, 并且能较精确地给出这种判断的可靠程度.
具体做法是: 根据观测数据计算由
K
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;
为了使不同样本容量的数据有统一的评判标准, 基于上述分析,我们构造一个随机变量:
K
2
a b c d a c b d
n ad bc
2
其中n a b c d为样本容量
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
患肺癌 不患肺癌
上面我们通过分析数据和图形,得到的直观印象 是吸烟和患肺癌有关,那么事实是否真的如此呢?
能够以多大的把握认为”吸烟与患肺癌有关”,假设 H0:吸烟与患肺癌没有关系,看看能推出什么结论
2
56.632
这个值到地告诉我们什么呢?
统计学家经过研究发现,在H0成立的情况下:
P K 6.635 0.01
2
K=56.632,远远大于6.635,所以有理由断定吸 烟与患肺癌有关系。这种判断犯错误的概率 不超过0.01。
3.2 独立性检验的基本思想及其初步应用
3.2独立性检验的基本思想及其初步应用问题导学预习教材P91~P96的内容,并思考下列问题:1.分类变量与列联表分别是如何定义的?2.独立性检验的基本思想是怎样的?3.独立性检验的常用方法有哪些?1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.■名师点拨对2×2列联表的理解(1)2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.■名师点拨独立性检验的基本思想与反证法的思想的相似之处1.判断正误(正确的打“√”,错误的打“×”)(1)列联表中的数据是两个分类变量的频数.( )(2)对事件A 与B 的独立性检验无关,即两个事件互不影响.( ) (3)K 2的大小是判断事件A 与B 是否相关的统计量.( )2. 为直观判断两个分类变量X 和Y 之间是否有关系,设它们的取值分别为{x 1,x 2}和{y 1,y 2},通过抽样得到频数表为:y 1 y 2 x 1 a b x 2cd( ) A .a a +c 与b b +dB .a a +d 与c b +cC .a b +d 和c a +cD .a c +d 和c a +b3.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的比例,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的比为80%C .男生比女生喜欢理科的可能性大些D .男生不喜欢理科的比为60% 4.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 和Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( )P (K 2≥k 0)0.50 0.40 0.25 0.15 0.10 k 0 0.455 0.708 1.323 2.072 2.706 P (K 2≥k 0)0.05 0.025 0.01 0.005 0.001 k 03.8415.0246.6357.87910.828A .0.25 C .0.025D .0.975等高条形图的应用为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:铅中毒病人与尿棕色素为阳性是否有关系?(1)判断两个分类变量是否有关系的两种常用方法①利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.②一般地,在等高条形图中,a a +b 与c c +d 相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否相关的步骤强化训练某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.独立性检验为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?1.把本例条件“理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.”换成“理科对外语有兴趣的有100人,无兴趣的有136人,文科对外语有兴趣的有93人,无兴趣的有32人.”其他条件不变,再求解该问题.解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.强化训练某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:(1)请完成列联表;(2)根据列联表的数据,能否在犯错误的概率不超过0.005的前提下认为推广新课改与总成绩是否优秀有关系?参考数据:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).基础训练1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是() A.频率分布直方图B.回归分析C.独立性检验D.用样本估计总体2.如表是一个2×2列联表:则表中a,b的值分别为()A.94,72 B.52,523.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是()A.药物B的预防效果优于药物A的预防效果B.药物A的预防效果优于药物B的预防效果C.药物A,B对该疾病均有显著的预防效果D.药物A,B对该疾病均没有预防效果4.分类变量X和Y的列表如下,则下列说法判断正确的是________.(填序号)①ad-bc②ad-bc越大,说明X与Y的关系越强;③(ad-bc)2越大,说明X与Y的关系越强;④(ad-bc)2越接近于0,说明X与Y的关系越强.能力提升1.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是()A.100个心脏病患者中至少有99人打鼾B.1个人患心脏病,则这个人有99%的概率打鼾C.100个心脏病患者中一定有打鼾的人D.100个心脏病患者中可能一个打鼾的人都没有2.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:() A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关C.在犯错误的概率不超过0.001的前提下认为课外阅读量大与作文成绩优秀有关D.在犯错误的概率不超过0.005的前提下认为课外阅读量大与作文成绩优秀有关3.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:() A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5 D.a=2,b=3,c=5,d=44.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:A.0.01B.0.025 C.0.10 D.无充分证据5.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.6.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.7.在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请列出2×2列联表,并估计色盲与性别是否有关系.8.(2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:(3)根据(2)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),9.2019年春节,“抢红包”成为社会热议的话题之一.某机构对春节期间用户利用手机“抢红包”的情况进行调查,如果一天内抢红包的总次数超过10次为“关注点高”,否则为“关注点低”,调查情况如下表所示:(1)点高低有关?(2)现要从上述男性用户中随机选出3名参加一项活动,以X表示选中的男性用户中抢红包总次数超过10次的人数,求随机变量X的分布列及数学期望E(X).下面的临界值表供参考:独立性检验统计量K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.。
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用教案教学目标:1. 了解独立性检验的基本思想及应用;2. 学会使用独立性检验进行数据分析;3. 能够解释独立性检验的结果及意义。
教学内容:一、独立性检验的基本思想1. 引入独立性检验的概念;2. 解释独立性检验的目的;3. 阐述独立性检验的基本步骤。
二、独立性检验的初步应用1. 介绍独立性检验的应用场景;2. 展示独立性检验的实际案例;3. 引导学生通过独立性检验分析数据。
三、独立性检验的计算方法1. 介绍独立性检验的计算方法;2. 解释卡方统计量的含义;3. 演示如何计算卡方统计量及p值。
四、独立性检验的结果解释1. 解释独立性检验的结果;2. 讲解如何判断假设检验的结果;3. 强调独立性检验的局限性。
五、独立性检验的实践操作1. 引导学生使用统计软件进行独立性检验;2. 分析实际数据,展示独立性检验的操作过程;教学方法:1. 采用案例教学法,结合实际数据进行分析;2. 利用统计软件进行独立性检验的演示;3. 引导学生进行小组讨论,分享学习心得。
教学评估:1. 课后作业:要求学生独立完成独立性检验的练习题;2. 课堂问答:提问学生关于独立性检验的概念及应用;3. 小组报告:评估学生在小组讨论中的表现及成果。
教学资源:1. 独立性检验的教学案例及数据;2. 统计软件及相关教学视频;3. 独立性检验的练习题及答案。
六、独立性检验的拓展应用1. 介绍独立性检验在其他领域的应用;2. 分析不同领域中独立性检验的实际案例;3. 引导学生探讨独立性检验的潜在拓展方向。
七、独立性检验的优缺点分析1. 阐述独立性检验的优点;2. 讨论独立性检验的局限性;3. 比较独立性检验与其他统计方法的差异。
八、独立性检验在实际研究中的应用案例1. 分享独立性检验在实际研究中的经典案例;2. 分析案例中独立性检验的使用方法和结果;3. 引导学生从案例中学习独立性检验的应用技巧。
九、独立性检验的敏感性分析1. 介绍独立性检验的敏感性分析概念;2. 解释敏感性分析在独立性检验中的作用;3. 演示如何进行独立性检验的敏感性分析。
独立性检验的基本思想及其初步应用》
独立性检验的基本思想及其初步应用》生更加直观地理解两个分类变量之间的关系。
问题2:根据三维柱形图和二维条形图,你能否看出吸烟者和不吸烟者患肺癌的比例有何不同?二、独立性检验的基本思想1、独立性检验的基本思想:独立性检验是用来检验两个分类变量是否有关系的一种统计方法。
如果两个分类变量是独立的,那么它们之间是没有关系的;如果两个分类变量不独立,则它们之间是有关系的。
2、独立性检验的步骤:1)列出列联表;2)计算期望频数;3)计算卡方值;4)查表得出显著性水平;5)判断两个分类变量是否有关系。
三、K2检验的计算公式1、K2检验的计算公式:K2=∑(Oi-Ei)²/Ei其中,Oi为观察频数,Ei为期望频数。
2、K2检验的含义:K2检验的值越大,观察频数与期望频数的差距越大,两个分类变量之间的关系就越显著。
四、独立性检验的应用举例1、应用举例:1)医学研究:调查吸烟是否对患肺癌有影响;2)社会调查:调查男女是否对某一品牌的喜好程度有影响;3)市场调查:调查年龄与消费金额是否有关系。
2、独立性检验的应用:通过独立性检验,可以判断两个分类变量是否有关系,从而为我们提供科学的依据,进行合理的决策。
教学反思:本节课通过生动的例子和图表,引入了独立性检验的基本概念和思想。
通过对K2检验公式的介绍,让学生了解了如何计算卡方值。
同时,通过应用举例,让学生了解了独立性检验的实际应用。
在教学过程中,教师注重启发学生的思维,让学生在合作探究中主动掌握知识,达到了预期的教学目标。
练1、在某医院,665名男性病人中,214人秃顶,而在772名非心脏病男性病人中,175人秃顶。
能否以99%的置信度认为“秃顶与患心脏病”有关系?思考1、为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别。
是否需要志愿者需要。
不需要男性。
30.170女性。
373.271)估计该地区老年人中需要志愿者提供帮助的比例;2)能否以99%的置信度认为该地区的老年人是否需要志愿者提供帮助与性别有关系?思考2、某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,能否以95%的置信度认为该学校15至16周岁的男生的身高和体重之间有关系?课后作业:课本第18页第1题和第2题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事
件 件A下和应B该发有生P的(A频)数 a。n+由b 于, P频(B率)接a近n+ c于, 概P率(AB,)所an以. 在H0成立的条
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
的把握认为“两个分类变量之间有关系”;把k k0 解释为
不能以(1 P(K 2 k)) 100% 的把握认为“两个分类变量
之间有关系”,或者样本观测数据没有提供“两个分类变量
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
通过图形直观判断两个分类变量是否相关: 1、列联表
2、三维柱形图
不患肺癌 患肺癌
不吸烟 吸烟
从三维柱形图能清晰看出 各个频数的相对大小。
3、二维条形图
8000
7000 6000
不患肺癌 患肺癌
5000
4000
3000
2000
1000
0 不吸烟
吸烟
从二维条形图能看出,吸烟者中
患肺癌的比例高于不患肺癌的比例。
4、等高条形图
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0
不吸烟 不吸烟
患肺癌 比例
吸烟 吸烟
不患肺癌 比例
等高条形图更清晰地表达了两种情况下患肺癌的比例。
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢?这需要用统计观点 来考察这个问题。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
思考
如果K 2 6答.635:,就判断断定H出0不错成立的,概这种率判为断出0.错01的。可能性有多大?
现在观测值k 9965(7775 49 42 2099)2 56.632太大了, 7817 2148 9874 91
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设不合理的程度为1%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
成立”的概率不会差P过(K 2 6.635) 0.01,
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 k0 )
k0
P(K2 k0 )
k0
之间有关系”的充分证据。
思考:
利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢?
一般地,假设有两个分类变量X和Y,它们的值域 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列 联表)为:
表1-11 2x2联表
若要判断的结论为:H1:“X与Y有关系”,可以 按如下步骤判断H1成立的可能性:
在H
成立的情况下能够出现这样的观测值的概率不超过0.01,
0
因此我们有99%的把握认为H
不成立,即有99%的把握认为“吸烟
0
与患肺癌有关系”。
判断H 0是否成立的规则
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
患肺癌有关系;否则,就判断 H0 成立,即认为吸烟 与患肺癌有关系。
在该规则下,把结论“H0 成立”错判成H“0 不
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“的数据,利用公式(1)计算得到K2的观测值为:
1、通过三维柱形图和二维条形图,可以粗略地判断两个变
量是否有关系,但是这种判断无法精确地给出所得结论的可靠 程度。
(1)在三维柱形图中, 主对角线上两个柱形高度的乘积 ad与副对角线上两个柱形高度的乘积bc相差越大,H1成立的 可能性就越大。
(2)在二维条a a形b c 图中,可a以估计满足条件X=x1的个体中具 有Y=y1的个体所占c的 d比例 a b ,也可以c 估计满足条件X=x2 的个体中具有Y=y1的个体所占的比例c d 。两个比例相差越 大,H1成立的可能性就越大。
3.2独立性检验的 基本思想及其初 步应用(一)
高二数学 选修2-3
第三章 统计案例
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
k 9965(777549 42 2099)2 56.632 (2) 7817 2148987491
那么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
2、可以利用独立性检验来考察两个分类变量是否有关系,并
且能较精确地给出这种判断的可靠程度。
具体作法是:
(1)根据实际问题需要的可信程度确定临界值
k
;
0
(2)利用公式(1),由观测数据计算得到随机变量 K 2的观测值;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
怎样判断K2的观测值k是大还是小呢?
值
这仅需要确定一个正数 k0 ,当 k k大。此时相应于k 0 的判断规则为:
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间没有关系”错误的判断