《独立性检验的基本思想》
《独立性检验的基本思想及其初步应用(第1课时)》教学设计
1.1.2 独立性检验的基本思想及其初步应用第一课时(谷杨华)一、教学目标1.核心素养通过学习独立性检验的基本思想及其初步应用,初步形成基本的数据分析能力,培养数学运算能力.2.学习目标(1)1.1.1.1 了解分类变量的概念(2)1.1.1.2 了解等高条形图、列联表概念,学会用列联表、等高条形图直观判断分类变量的关系(3)1.1.1.3 了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系3.学习重点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系4.学习难点了解独立性检验基本思想,初步学会用独立性检验的基本思想判断分类变量的关系二、教学设计(一)课前设计1.预习任务任务1阅读教材P10-P12,思考什么是分类变量,列联表如何画?任务2有哪些方法可以直观判断两个分类变量是否有关系?2.预习自测1.下列不是分类变量的是()A.近视B.身高C.血压D.药物反应解:B.判断一个量是否是分类变量,只需看变量的不同值是否表示个体的不同类别,A,C,D选项的不同值都可以表示个体的不同类别,只有B选项的不同值不表示个体的不同类别.2.下面是一个22⨯列联表则表中a,b A. 94,96 B. 52,50 C. 52,54 D. 54,52 解:C(二)课堂设计 1.知识回顾(1)线性回归方程:∧∧∧+=a x b y ,其中:1122211()()()n niii ii i nniii i x x y y x y nx yb x x xnx∧====---==--∑∑∑∑,a ∧=x b ∧-y(2)回归分析:是对具有相关关系的两个变量进行的统计分析的一种常用方法. (3)线性回归模型:y bx a e =++其中a 和b 为模型的未知参数,e 称为随机误差. 2.问题探究问题探究一 什么是分类变量?●活动一 理论研究,概念学习—分类变量在现实生活中,会遇到各种各样的变量,如果要研究它们之间的关系,观察下面两组变量,分析在取不同的值时表示的个体有何差异?变量的不同“值”表示个体所属的不同类别,像这样的变量成为分类变量. (1) 分类变量也称为属性变量或定性变量,它的不同值表示个体所属的不同类别. (2) 分类变量的取值一定是离散的,如性别只取男、女两个值.(3) 可以把分类变量的不同取值用数字表示,如用0表示男,1表示女,这是性别变量就成了取值为0和1的随机变量,但这些数字的大小没有意义. 分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍等问题探究二 如何研究两个分类变量之间是否有关系?在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响? ●活动一 实例探究,引出问题例1 为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表格 1那么吸烟是否对患肺癌有影响?估计吸烟者与不吸烟者患病的可能性差异?●活动二 实例探究,引出概念 1.列联表类似于上面的表格这样列出两个分类变量的频数表,称为列联表.即列联表是两个或者两个以上分类变量的频数表,书中仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表成为2×2列联表.一般的,假设有两个分类变量X 和Y ,它们的取值分别为{}21,x x 和{}21,y y ,其样本频数列联表为:1y 2y总计1x a bb a + 2xcd d c + 总计c a +b d +d c b a +++其中d c b a +++是样本容量. ●活动三 利用旧知,研究问题 利用频率分布表判断;由患肺癌在吸烟者与不吸烟者中的频率差异可粗略估计吸烟对患肺癌有影响; ●活动四 学习新知,对比研究与表格相比,图形更能直观的反映出两个分类变量间是否相互影响,我们常用等高条形图展示列联表数据的频率特征. 2.等高条形图利用等高条形图来分析两个分类变量之间是否具有相关关系,可以形象、直观地反映两个分类变量之间的总体状态和差异大小,进而判断它们之间是否具有相关关系.(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两行的数据对应不同的颜色.(2)等高条形图中由两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系.下图是吸烟与是否患肺癌的等高条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌由条形图可以发现,在吸烟样本中,患肺癌的频率要高些,因此直观上可以认为吸烟更容易引发肺癌.例2 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关? 【知识点:分类变量,等高条形图】详解根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计44956 1 000根据列联表作出相应的等高条形图:从等高条形图来看在男人中患色盲的比例要比在女人中患色盲的比例大得多,因而,我们认为性别与患色盲是有关系的.点拨:利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,aa+b 与cc+d相差越大,两个分类变量有关系的可能性就越大.问题探究三如何从统计学方面研究两个分类变量之间是否有关系?重点、难点知识★▲通过数据和图形分析,我们得到的直观判断是“吸烟和患肺癌有关”那么这种判断是否可靠?我们通过统计分析回答这个问题.为研究的一般性,在列联表中用字母代替数字为了回答上述问题,我们先假设H:吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小. 根据表1中的数据,利用公式(1)计算得到2K 的观测值为632.5691987421487817)209942497775(99652≈⨯⨯⨯⨯-⨯=k这个值到底能告诉我们什么呢?统计学家经过研究后发现,在0H 成立的情况下, 2( 6.635)0.01P K ≥≈ (2)在0H 成立的情况下,2K 的观测值大于6.635的概率非常小,近似为0.010,是个小概率事件.现在2K 的观测值632.56≈k ,远远大于635.6,所以有理由断定0H 不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过010.0.上面这种利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验. 3.课堂总结【知识梳理】(1)变量的不用“值”表示个体所属的不同类别,像这样的变量成为分类变量. (2)列出两个分类变量的频数表,称为列联表.(3)设0H :吸烟与患肺癌没有关系,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即:dc cb a a +≈+,即bc ad ≈. 因此,bc ad -越小,说明吸烟与患肺癌之间关系越弱;bc ad -越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1) (其中n a b c d =+++为样本容量.)若0H 成立,即“吸烟与患肺癌没有关系”,则2K 应该很小.【重难点突破】(1)列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.一般地,在等高条形图中,a a +b 与cc +d 相差越大,两个分类变量有关系的可能性就越大.(2)利用等高条形图判断两个分类变量是否有关的步骤:4.随堂检测1.独立性检验中,可以粗略地判断两个分类变量是否有关的是( ) A. 残差B. 等高条形图C.假设检验的思想D.以上都不对【知识点:独立性检验】 解: B.2.分类变量X 和Y 的列联表如下,则( )A. ad bc -越小,说明X 与Y 的关系越弱B. ad bc -越大,说明X 与Y 的关系越强C. 2()ad bc -越大,说明X 与Y 的关系越强 D. 2()ad bc -越接近于0,说明X 与Y 关系越强【知识点:独立性检验】解:C 2K 越大, 2()ad bc -越大, 犯错误的概率的越小,说明X 与Y 的关系越强. 3..在一次独立性检验中,得出2×2列联表如下:最后发现,两个分类变量x 和y 没有任何关系,则m 的可能值是( ) A.200 B.720 C.100 D.180 【知识点:独立性检验】解:B 分类变量x 和y 没有任何的关系,所以,得到720=m ,故选B. 4.在一个2×2列联表中,由其数据计算得到K 2的观测值k =13.097,则其两个变量间有关系的可能性为( ) A.99.9% B.95% C.90% D.0 附表:【知识点:独立性检验】解:A 因为所求的213.09710.828k ,故可能性为99.9%,所以选A.5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则至少有 _的把握认为“学生性别与是否支持该活动有关系”. 附:【知识点:独立性检验】 解:99﹪ (三)课后作业基础型 自主突破 1.下面说法正确的是( )A.统计方法的特点是统计推断准确、有效B.独立性检验的基本思想类似于数学上的反证法C.任何两个分类变量有关系的可信度都可以通过查表得到D.不能从等高条形图中看出两个分类变量是否相关 【知识点:独立性检验】 解:B2.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )【知识点:独立性检验】 解:D3.确定结论“X 与Y 有关系”的可信度为95℅时,则随机变量2k 的观测值k 必须( ) A.大于828.10 B.大于841.3 C.小于635.6 D.大于706.2 【知识点:独立性检验】解:B 通过表中的数据可知可信度为95℅时2 3.841kP (K 2≥k 0) 0.05 0.025 0.010 0.005 0.001 k 03.8415.0246.6357.87910.8284. 想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( ) A.H 0:男性喜欢参加体育活动 B.H 0:女性不喜欢参加体育活动 C.H 0:喜欢参加体育活动与性别有关 D.H 0:喜欢参加体育活动与性别无关 【知识点:独立性检验】 解: D5.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是( ) A .K 越大," X 与Y 有关系”可信程度越小; B . K 越小," X 与Y 有关系”可信程度越小; C . K 越接近于0," X 与Y 无关”程度越小 D . K 越大," X 与Y 无关”程度越大 【知识点:独立性检验】 解: B能力型 师生共研6.若有%9.99的把握说事件A 与事件B 有关,那么具体算出的2K 的观测值k 一定满足( )A.828.10>kB.828.10<kC.635.6>kD.635.6<k 【知识点:独立性检验】 解: A7.假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:(D ) A.a =5,b =4,c =3,d =2 B.a =5,b =3,c =4,d =2 C.a =2,b =3,c =4,d =5 D.a =3,b =2,c =4,d =5 【知识点:独立性检验】 解: D8.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2⨯2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论为:有 把握认为“学生性别与支持该活动有关系”【知识点:独立性检验】解: 99% 【解析】根据6.6357.06910.828<<,所以犯错误率低于1%,所以应该有99%的把握,认为“学生性别与支持该活动有关系” ,探究型 多维突破9.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少? (2)试运用独立性检验的思想方法点拨:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由.(参考下表)【知识点:独立性检验,古典概型】解:(1)积极参加班级工作的学生有24人,总人数为50人,概率为25125024=; 不太主动参加班级工作且学习积极性一般的学生有19人,概率为5019.(2)5.111315026242524)761918(5022≈=⨯⨯⨯⨯-⨯⨯=K , ∵828.102>K ,∴有%9.99的把握说学习积极性与对待班级工作的态度有关系.10.2016年夏季奥运会将在巴西里约热内卢举行,体育频道为了解某地区关于奥运会直播的收视情况,随机抽取了100名观众进行调查,其中40岁以上的观众有55名,下面是根据调查结果绘制的观众准备平均每天收看奥运会直播时间的频率分布表(时间:分钟):将每天准备收看奥运会直播的时间不低于80分钟的观众称为“奥运迷”,已知“奥运迷”中有10名40岁以上的观众.(1)根据已知条件完成下面的22⨯列联表,并据此资料你是否有认为“奥运迷”与年龄有关?(2)将每天准备收看奥运会直播不低于100分钟的观众称为“超级奥运迷”,已知“超级奥运迷”中有2名40岁以上的观众,若从“超级奥运迷”中任意选取2人,求至少有1名40岁以上的观众的概率.【知识点:独立性检验,概率统计】解:(1)由频率分布表可知,在轴取的100人中,“奥运迷”有25人,从完成22⨯列联表如下:因为3.030 3.841<,所以没有“奥运迷”与年龄有关.(2)由频率分布表可知,“超级奥运迷”有5人,从而所有可能结果所组成的基本事件空间为:()()()()()()()()()(){}12132311122122313212,,,,,,,,,,,,,,,,,,,a a a a a a a b a b a b a b a b a b b b Ω=其中i a 表示男性,1,2,3,i i b =表示女性,1,2i =.Ω由10个基本事件组成,且是等可能的,用A 表示事件“任意选2人,至少有1名40岁以上观众”,则()()()()()()(){}11122122313212,,,,,,,,,,,,,A a b a b a b a b a b a b b b =,即事件A 包含7个基本事(四)自助餐1.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )A.a a +b 与dc +d B.c a +b 与a c +d C.a a +b 与c c +d D.a a +b 与c b +c【知识点:独立性检验】 解: C2.为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( ) A.平均数 B.方差 C.回归分析 D.独立性检验 【知识点:独立性检验】解: D 本例考查学生眼睛的“近视”与“性别”两件事情之间是否存在相关性,从给出的数据可以列出22⨯列联表,所以适合用独立性检验.3.在一个2×2列联表中,由其数据计算得K 2的观测值k =7.097,则这两个变量间有关系的可能性为 ( )A.99%B.99.5%C.99.9%D.无关系 【知识点:独立性检验】解: A 由表格数据可知k =7.097>6.635,所以这两个变量间有关系的可能性为99%4.某疾病研究所想知道吸烟与患肺病是否有关,于是随机抽取1000名成年人调查是否抽烟及是否患有肺病得到22⨯列联表,经计算得231.52=K ,已知在假设吸烟与患肺病无关的前提条件下,01.0)635.6(,05.0)841.3(22=≥=≥K P K P .则该研究所可以( )A.有%95以上的把握认为“吸烟与患肺病有关”B.有%95以上的把握认为“吸烟与患肺病无关”C.有%99以上的把握认为“吸烟与患肺病有关”D.有%99以上的把握认为“吸烟与患肺病无关” 【知识点:独立性检验】解: A 因为2 5.231 3.841K =>,而2( 3.841)0.05P K ≥=,故有有%95以上的把握认为“吸烟与患肺病有关”5.2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类的胜利,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见, 2452名女性中有1200名持反对意见,在运用这些数据说明“性别”对判断“人机大战是人类的胜利”是否有关系时,应采用的统计方法是( ) A.茎叶图 B.分层抽样 C.独立性检验 D.回归直线方程 【知识点:独立性检验】解:C 这是独立性检验,因为这里有两个分类变量,一个是性别分为男女,一个是意见分为支持和反对,这样就构成一个22⨯联表,用独立性检验来验证“人机大战是人类的胜利”是否有关系.6.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,这与性别有关联的可能性最大的变量是( )A.成绩B.视力C.智商D.阅读量【知识点:独立性检验】解:D由表中数据可得:表1:()25262210140.00916362032K⨯⨯-⨯=≈⨯⨯⨯;表2:()25242012161.76916362032K⨯⨯-⨯=≈⨯⨯⨯;表3:()2528241281.316362032K⨯⨯-⨯=≈⨯⨯⨯;表4:()25214302623.4816362032K⨯⨯-⨯=≈⨯⨯⨯.其中23.48最大,所以阅读量与性别有关联的可能性最大.7.如下表是对于喜欢足球与否的统计列联表依据表中的数据,得到2K.【知识点:独立性检验】解:228542122854.77245406817k⨯-⨯==⨯⨯⨯.8.若由一个2×2列联表中的数据计算得K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.【知识点:独立性检验】解:0.05 因随机变量K2的观测值k=4.013>3.841,因此,在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.9.如果K2的观测值为6.645,可以认为“x与y无关”的可信度是________.【知识点:独立性检验】解:1%10.某学校对该校学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【知识点:独立性检验】解:作列联表如下:性格内向性格外向总计考前心情紧张332 213 545考前心情不紧张94 381 475总计426 594 1020 相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类型有关.11.甲、乙两所学校高三年级分别有1200人,1000人,为了了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率;(3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.【知识点:独立性检验,分层抽样,概率统计】解:(1)x=10,y=7;(2)甲乙分别为;25%,40%(3)见解析.试题分析:(1)由题为分层抽样,可确定出甲乙两个学校分别抽取的人数,然后结合频数表,可求出x,y的值;(2)由题给出了优秀的标准,结合给出的表格,可分别求甲乙学校的数学成绩的优秀率,(即由每个学校优秀的人数除以它们的人数);(3)由题为独立性检验;可先做出二列联表,再代入独立性检验的公式,求出2K,对应参考值可下结论.试题解析:(1)甲校抽取人,乙校抽取人,故x=10,y=7,(240%.(3)表格填写如图,k2>2.706又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
高中数学:1.2《独立性检验的基本思想及其初步应用》复习教案
1.2独立性检验的基本思想及其初步应用教学目标:1理解独立性检验的基本思想2、会从列联表、柱形图、条形图直观判断吸烟与患癌有关。
3、了解随机变量K2的含义。
教学重点:理解独立性检验的基本思想。
教学难点;1、理解独立性检验的基本思想、2、了解随机变量K2的含义。
教学过程:一、引入:从问题“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表,柱形图,和条形图的展示,使学生直观感觉到吸烟和患肺癌可能会有关系。
但这种结论能否推广到总体呢?要回答这个问题,就必须借助于统计理论来分析。
二、独立性检验就是检验两个分类变量是否有关的一种统计方法:用字母表示吸烟与患肺癌的列联表:不患肺癌患肺癌合计不吸烟 a b a+b吸烟 c d c+d合计a+c b+d a+b+c+d样本容量 n=a+b+c+d假设H0 : 吸烟与患肺癌没有关系。
则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:()()()()()()()220a ca c d c ab ad bc a b c dad bc n ad bc k a b c d a c b d n a b c d≈⇒+≈+⇒-≈++--=++++=+++因此 : 越小, 说明吸烟与患肺癌之间关系越弱.构造随机变量 其中()()2781721489874916.635⨯⨯≈⨯⨯⨯≥≈≥2020220202若H 成立,则K 应该很小. 把表中数据代入公式9965777549-422099K =56.632在H 成立的情况下.统计学家估算出如下概率P K 0.01即在H 成立的情况下,K 的值大于6.635的概率非常小.如果K 6.635,就断定H 不成立,出错的可能性有多大?出现K =56.6326.635 的概率不超过1% .因此,我们有99%的把握认为"吸烟与患肺癌有关系."三、作业:预习17页。
1.2独立性检验的基本思想及其初步应用(第二课时)。
1.2独立性检验的基本思想
独立性检验的基本思想及其初步应用
在统计学中, 在统计学中,独立性检验就是检验两个分类变量是 否有关系的一种统计方法。 否有关系的一种统计方法。 所谓“分类变量” 就是指个体所属的类别不同, 所谓“分类变量”,就是指个体所属的类别不同,也 称为属性变量或定型变量。 称为属性变量或定型变量。 在日常生活中, 在日常生活中,我们常常关心两个分类变量之间是 否有关系,例如吸烟是否与患肺癌有关系? 否有关系,例如吸烟是否与患肺癌有关系?性别是否对 于喜欢数学课程有影响等等。 于喜欢数学课程有影响等等。
在吸烟与患肺病这两个分类变量的计算中,下列说法正确 在吸烟与患肺病这两个分类变量的计算中, 的是( 的是(
c
)
A、若K的观测值为 、 的观测值为k=6.635,我们有 我们有99%的把握认为吸烟与患 的观测值为 我们有 的把握认为吸烟与患 肺病有关系,那么在 个吸烟的人中必有99个患肺病 肺病有关系,那么在100个吸烟的人中必有 个患肺病 个吸烟的人中必有 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 、从独立性检验可知有 的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病 系时,我们说某人吸烟,那么他有 的可能患肺病 C、若从统计量中求出有95%的把握认为吸烟与患肺病有关 、若从统计量中求出有 的把握认为吸烟与患肺病有关 系,是指有5%的可能性使得推理出现错误 是指有 的可能性使得推理出现错误 D、以上三种说法都不对 、
列联表的条形图: 90% 列联表的条形图: 100%
80% 70% 60% 50% 40% 30% 20% 10% 0%
优秀 不优秀
由图及表直观判断,好像“成绩优秀与班级有关系”,由表中 由图及表直观判断,好像“成绩优秀与班级有关系” 数据计算, 数据计算,得 K 2 的观察值为 k ≈ 0.653 > 0.455。由教科书中表 11, 1-11,得
独立性检验 的基本思想及步骤说课比赛
的研究和思考当中来,形成了良好且完整的思维体系,逐步通过观察、
比较、迁移等数学思想方法,完成了一整套对独立性检验的探索,理解 和应用。
2.教学难点:独立性检验的基本思想的领会和方法应用。
(一)启发式教学法、合作探究法;
(二)教师启发、引导、点拔,充分调动学生的积极性;
(三)多媒体展示、分组教学;
(四)生生互动、师生互动。
数学
1 .创设情境,导入新课 2 .合作探究,收获新知 3 .课堂练习,夯实基础 4 .课堂小结,感悟提高 5 .课后作业,学以致用
1.创设情境,导入新课
通过对典型案例“吸烟是否对患肺癌有影响?”的提出,联系生 活,引起共鸣,激发学生的学习兴趣。从生活的实例出发,让学生 充分体会数学与实际生活的联系,从而使得本节知识的形成更自然、 更生动。 首先介绍分类变量、列联表的概念。 对于问题1的设计,是想让学生通过对列联表中数据的观察和计 算,进行频率分析得出结论,吸烟者和不吸烟者患肺癌的可能性存 在差异,吸烟者中患肺癌的可能性大。 将列联表中的数据输入到 Excel表格中,将数据呈现到图形上, 用计算机演示等高条形图,让学生观察图形,直观分析分类变量之 间是否有相关关系,这种由图形得到的结论是直观上初略的印象, 就是说这种判断无法精确地给出所得结论的可靠程度。但是上面的 分析给我们提供了一种重要的思想方法,总结可以得出什么样的结 论? 提出问题:是否能够以一定的把握认为“吸烟与患肺癌有关系” 呢? 设置问题,引发学生的思考,激发学生的求知欲望。
2.能力目标:培养学生分析问题、解决问题的能力;团结协
作的能力。 3.情感目标:
(1)通过本节课的学习,让学生感受数学与现实生活的联系,
体会独立性检验的基本思想在解决日常生活问题中的作用。
《独立性检验的基本思想及其初步应用》PPT课件
0.05 3.841
0.025 5.024
0.010 0.005 6.635 7.879
0.001 10.828
K2的观测值为k
如果 k k0,就以 (1 P(K 2 k0 )) 100%的把握
认为“X与Y有关系”;而这种判断有可能出错,出
错的概率不会超过 P(K 2 k0 )。
7
例如 :
1如果k 10.828,就有99.9%把握认为" X与Y有
❖ 试用你所学过的知识进行分析,能否在犯错 误的概率不超过0.005的前提下,认为“喜欢 体育还是文娱与性别有关系”?
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
16
[思路探索] 可用数据计算 K2,再确定其中的具体关系. 解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立, 则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, ∴k=a+bcn+add-ab+cc2b+d =21+237×9×6+212×9×29-212+3×66×223+29≈8.106.
12
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
1.2独立性检验的基本思想及其初步应用课件人教新课标
类型二 由K2进行独立性检验 例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病 人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下 表所示.
心脏搭桥手术 血管清障手术
总计
又发作过心脏病 39 29 68
未发作过心脏病 总计
157
196
167
196
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没 有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c +d=196,a+c=68,b+d=324,n=392, 由公式得K2的观测值
解答
达标检测
1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下列
联表:
喜欢程度
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
nad-bc2 由 K2=a+bc+da+cb+d算得,
110×40×30-20×202 k= 60×50×60×50 ≈7.8,
12345
附表:
12345
解析 答案
5.“全国文明城市”称号是最有价值的城市品牌,某市为创建第五届“全 国文明城市”,开展了“创建文明城市人人有责”活动.为了了解哪些人 更关注“创城”活动,随机抽取了年龄在10~70岁之间的100人进行调 查,并按年龄绘制如下频数散布表.
年龄(岁) [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
独立性检验基本思想及应用
独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。
其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。
独立性检验的应用非常广泛。
在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。
在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。
此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。
独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。
零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。
独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。
2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。
表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。
3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。
期望频数是在两个变量独立情况下,各个类别的交叉数量。
4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。
计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。
其中,Σ表示对所有单元格进行求和。
5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。
通常,α的常见选择为0.05或0.01。
6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。
独立性检验的结果常常以卡方统计量和p值的形式呈现。
p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。
(完整)独立性检验的基本思想及其初步应用教学设计
《独立性检验的基本思想及其初步应用》教学设计邹晓利两当一中《独立性检验的基本思想及其初步应用》教学设计两当一中邹晓利【教学目标】1.知识与技能:通过对典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能解决实际问题。
2.过程与方法:通过设置问题,引导学生自主发现、合作探究、归纳展示、质疑对抗,使学生成为课堂主体。
3.情感、态度与价值观:通过本节课学习,让学生体会统计方法在决策中的作用;合作探究的学习过程,使学生感受发现、探索的乐趣及成功展示的成就感,培养学生学习数学知识的积极态度。
【教学重点】了解独立性检验的基本思想及实施步骤。
【教学难点】K的含义。
独立性检验的基本思想;随机变量2【学情分析】本节课是在学习了统计、回归分析的基本思想及初步应用后,利用独立性检验进一步分析两个分类变量之间是否有关系,为以后学习统计理论奠定基础。
【教学方式】多媒体辅助,合作探究式教学。
【教学过程】一、情境引入,提出问题5月31日是世界无烟日,有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、肺病等都与吸烟有关,吸烟已经成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢?[设计意图说明]好的课堂情景引入,能激发学生的求知欲,是新问题能够顺利解决的前提之一。
问题你认为吸烟与患肺癌有关系吗?怎样用数学知识说明呢?[设计意图说明]提出问题,引导学生自主探究,指明方向,步步深入。
二、阅读教材,探究新知1.分类变量对于性别变量,其取值为男和女两种:[设计意图说明]利用图像向学生展示变量的不同取值,更加形象的表示分类变量的概念。
这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。
生活中有很多这样的分类变量如:是否吸烟宗教信仰国籍民族……2.列联表为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:表3—7 吸烟与患肺癌列联表单位:人不患肺癌患肺癌总计不吸烟7775 42 7817吸烟2099 49 2148总计9874 91 9965 这样列出的两个分类变量的频数表,称为列联表(一般我们只研究每个分类变量只取两2 列联表)。
独立性检验的基本思想及其初步应用
§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤(重、难点).知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表,称为列联表.假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.两个分类变量之间关联关系的定性分析的方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.【预习评价】(1)下面是一个2×2列联表:y1y2总计x1 a 2173x282533总计 b 46则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52(2)根据如图所示的等高条形图可知吸烟与患肺病关系(填“有”或“没有”).知识点2独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】(1)在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在在犯错误的概率不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②(2)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法(1)本题采用数形结合法通过条形图直观地看出差异,得出结论. (2)应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?方向1 有关“相关的检验”【例2-1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?方向2有关“无关的检验”【例2-2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?规律方法(1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad -bc|越小,关系越弱;|ad-bc|越大,关系越强.(2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k.③如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?题型三独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P(K2≥k0)0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).规律方法(1)解答此类题目的关键在于正确利用K2=n(ad-bc)2计算k的值,再用它与临界值k0的大小作比(a+b)(c+d)(a+c)(b+d)较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.课堂达标1.观察下列各图,其中两个分类变量x,y之间关系最强的是()2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜 偏爱肉类 总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为( ) A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k ≈ (保留3位小数).5.在109个人身上试验某种药物预防感冒的作用,得到如下列联表:感冒 未感冒 总计 服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效?课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列最具说服力.①回归直线方程;②平均数与方差;③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(填序号).①没有充足的理由认为课外阅读量大与作文成绩优秀有关;②有0.5%的把握认为课外阅读量大与作文成绩优秀有关;③有99.9%的把握认为课外阅读量大与作文成绩优秀有关;④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为()A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表:那么,A=,B=,C=,D=,E=.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动. (1)完成下列2×2列联表:(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 13.(选做题)某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.。
独立性检验的基本思想
独立性检验的基本思想东莞市第五高级中学 余升豪一、内容与内容解析 1.内容(1)分类变量的定义;(2)两个分类变量的列联表; (3)等高条形图;(4)独立性检验的基本思想及其实施步骤. 2. 内容解析本节内容理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,还涉及到与初中数学中讲到的“反证法”类似的思想.“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种直观的思路,即借助列联表、等高条形图的方法,随后引出相对更精确的解决办法(独立性检验)。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界 及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标和目标解析 1.目标(1)理解分类变量的含义;(2)了解独立性检验(只要求2×2列联表)的基本思想及实施步骤; (3)培养利用多种方法解决问题的学习精神; (4)体会统计学的广泛性和科学的严谨性. 2.目标解析通过对典型案例((吸烟和患肺癌有关吗?)的探究,让学生利用列联表、等高条形图初步判断两个分类变量的相关性,并进一步了解独立性检验(只要求2×2列联表)的基本思想及其实施步骤,从中体验用多种方法(列联表、等高条形图和独立性检验)解决同一问题;通过本问题的解决,还能让学生体会统计学的广泛性和科学的严谨性. 三、教学问题诊断分析由于面对的学生群体为面上中学学生,学生数学基础相对薄弱,对数学概念的理解往往感到比较吃力。
独立性检验的基本思想及其初步应用参考模板范本
反证法原理与独立性检验原理
反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
独立性检验原理:
在一个已知假设下, 如果一个与该假设 矛盾的小概率事件 发生,就推断这个 假设不成立。
患肺癌 42 0.54% 49 2.28% 91
总计 7817 2148 9965
100%
90%
等
80%
高
70%
条
60%
形
50%
图
40%
30%
20%10%0%源自不吸烟吸烟患肺癌 不患肺癌
不吸烟
吸烟 总计
不患肺癌 a
c a+c
患肺癌 b
d b+d
总计 a+b
c+d a+b+c+d
问3:a、b、c、d应该满足怎样的关系?
高二数学 选修 2-3
第三章 统计案例
3.2
独立性检验的
基本思想及其初步应用
视频
问题1 心脏病、肺癌、脑血管病等都与吸烟有关, 吸烟已成为继高血压之后的第二号全球杀手。 这些疾病与吸烟有关的结论是怎样得出的呢?
案 例:某肿瘤研究所为了研究吸烟是否对患肺癌 有影响,进行了一次随机抽样调查,共调查了9965 个成年人,其中吸烟者2148人,不吸烟者7817人。 调查结果如下表所示:
解:列出吸烟与是否患肺癌的2x2列联表如下
不吸烟 吸烟 总计
不患病 7775 2099 9874
患病 42 49 91
总计 7817 2148 9965
《独立性检验的基本思想及其初步应用(第1课时)》导学案
§1.2.1 独立性检验的基本思想及其初步应用1.通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的必要性;2.会根据22K.⨯列联表求统计量2重点:理解独立性检验的基本思想及实施步骤.难点:了解独立性检验的基本思想、了解随机变量的含义.【知识链接】(预习教材,找出疑惑之处)复习1:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.【学习过程】※学习探究新知一:1.分类变量:.2.22⨯列联表:.试试:你能列举出几个分类变量吗?探究任务:吸烟与患肺癌的关系1.由列联表可粗略的看出:(1)不吸烟者有患肺癌;(2)不吸烟者有患肺癌.因此,直观上课的结论:.2.用三维柱柱图和二维条形图直观反映:(1)根据列联表的数据,作出三维柱形图:由上图可以直观地看出,吸烟与患肺癌.(2) 根据列联表的数据,作出二维条形图:由上图可以直观地看出,吸烟与患肺癌.根据列联表的数据,作出等高条形图:由上图可以直观地看出,吸烟与患肺癌.反思:(独立性检验的必要性)通过数据和图形,我们得到的直观印象是患肺癌有关.那是否有一定的把握认为“吸烟与患肺癌有关”呢?新知二:统计量2K吸烟与患肺癌列联表H:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的假设相应比例.因此,越小,说明吸烟与患肺癌之间关系;反之,.2K=※ 典型例题例1 吸烟与患肺癌列联表 求2K .※ 动手试试练1. 性别与喜欢数学课程列联表:求K .【学习反思】 ※ 学习小结1. 分类变量: .2. 22 列联表: .3. 统计量2K : .。
独立性检验的基本思想 凌健
《独立性检验的基本思想》教学设计安徽省五河第一中学凌健一、教学目标1、知识与技能:通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题.2、过程与方法:通过探究“吸烟是否与患呼吸道病有关系”引出独立性检验的问题。
通过列联表、等高条形图,使学生直观感觉到吸烟和患呼吸道疾病可能有关系.这一直觉来自于观测数据,即样本.问题是这种来自于样本的印象能够在多大程度上代表总体?这节课就是为了解决这个问题,让学生亲身体验直观感受的基础上,提高学生的数据分析能力.3、情感态度价值观:通过本节课的学习,加强数学与现实生活的联系。
以科学的态度评价两个分类变量有关系的可能性。
培养学生运用所学知识,解决实际问题的能力。
对问题的自主探究,提高学生独立思考问题的能力;让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性。
教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性。
二、教学重点理解独立性检验的基本思想及实施步骤.三、教学难点1.了解独立性检验的基本思想;的含义。
2.了解随机变量2四、教学方法以“问题串”的形式,层层设疑,诱思探究。
用“讲授法”,循序渐进,引导学生,步步为营,螺蜁上升探究本节课的知识内容.五、教学过程设计一、创设情境,引入新课1、情境引入、提出问题:1、吸烟与患呼吸道疾病有关系吗?2、你有多大程度把握吸烟与患呼吸道疾病有关?(设计意图:好的课堂情景引入,能激发学生求知欲,是新问题能够顺利解决的前提条件之一)2、案例探究:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人。
问题1、我们在研究“吸烟与患呼吸道疾病的关系”时,需要关注哪一些量呢? 数据收集:其中吸烟者220人,不吸烟者295人。
吸烟的220人中有37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中有21人患病,274人未患病。
独立性检验的基本思想及其初步应用 课件
1.分类变量和列联表 (1)分类变量 变量的不同“值”表示个体所属的 不同类别 ,像这样的 变量称为分类变量. (2)列联表 ①定义:两个分类变量的 频数表 称为列联表.
②2×2 列联表
一般地,假设两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)
4.在独立性检验中,设 K2 的观测值为 k,当 k> 3.841 时, 有 95%的把握说事件 A 与 B 有关;当 k> 6.635 时;有 99%的 把握说事件 A 与 B 有关;当 k≥10.828 时,有 99.9%的把握认 为 A 与 B 有关;当 k≤ 3.841 时,认为 事件 A 与 B 是无关的.
[解析] 按照独立性检验的基本步骤,假设票价上浮后游 客人数与所处地区没有关系.
因为 K2 的观测值 k= 76454×24194×073×39260×652-73288×424×90173312≈30.35>6.635. 所以在犯错误的概率不超过 0.01 的前提下认为票价上浮 后游客人数与所处地区有关系.
独立性检验的应用
在调查的 480 名男人中有 38 名患有色盲,520 名 女人中有 6 名患有色盲,通过图形判断色盲与性别是否有关.利 用独立性检验判断,是否能够以 99.9%的把握认为“色盲与性别 有关系”.你所得到的结论在什么范围内有效?
[分析] 依据独立性检验的步骤,应先作出 2×2 列联表, 计算 K2 的观测值 k,查表作出推断并确定这种推断犯错误的概 率
等高条形图的应用
从发生交通事故的司机中抽取 2000 名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
独立性检验的基本思想在生活中的应用
独立性检验的基本思想在生活中的应用224100 江苏省盐城市大丰区南阳中学 潘锦明 独立性检验在日常生活中有广泛的应用,解决该类问题的关键是理解独立性检验的基本思想、熟记公式,准确的运算。
具体地讲要注意以下几个方面。
1.独立性检验的基本思想:① 独立性检验的必要性(为什么不能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.②独立性检验的原理(与反证法类似): 反证法 假设检验 要证明结论A 备择假设H 1在A 不成立的前提下进行推理在H 1不成立的条件下,即H 0成立的条件下进行推理 推出矛盾,意味着结论A 成立 推出有利于H 1成立的小概率事件(概率不超过α的事件)发生,意味着H 1成立的可能性(可能性为(1-α))很大没有找到矛盾,不能对A 下任何结论,即反证法不成功推出有利于H 1成立的小概率事件不发生,接受原假设 ③独立性检验的基本步骤为:第一步:找相关数据,作出列联表(以吸烟与患肺癌为例);第二步:提出假设检验问题H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系。
第三步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++,用K 2来确定结论“X 与 Y 有关系”的可信程度.(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大.强调:在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视.2.应用举例例1. 有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立一个2×2的列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸 烟 209949 2148 总 计 9874 91 9965(.由表中数据得=2K 201.660645470)21273343(1242≈⨯⨯⨯⨯-⨯⨯, 因为024.5>k ,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有005.97的把握认为“国籍和邮箱名称里是否含有数字有关”.评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k 的值;第三步.判断两个分类变量有关的把握(即概率)有多大.例2. 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的21,男生喜欢韩剧的人数占男生人数的61,女生喜欢韩剧人数占女生人数的32. (1)若有0095的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人; (2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析:有0095的把握认为回答结果对错和性别有关,说明841.3>k ,没有充分的证据显示回答结果对错和性别有关,说明706.2≤k .设出男生人数,并用它分别表示各类别人数,代入2K 的计算公式,建立不等式求解即可.解:x (1)若有0095的把握认为回答结果的对错和性别有关,则841.3>k ,由841.38322)66365(2322>=⋅⋅⋅⨯-⨯=x x x x x x x x x x K ,解得24.10>x , ∵6,2xx 为整数,∴若有0095的把握认为回答结果的对错和性别有关,则男生至少有12人;(2)没有充分的证据显示回答结果的对错和性别有关,则706.2≤k ,由706.28322)66365(2322≤=⋅⋅⋅⨯-⨯=x x x x x x x x x x K ,解得216.7≤x ,∵6,2xx 为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有6人.评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性.其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.练习:1、为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用安慰剂,得到下列实验数据:请问服用新药是否可产生副作用?2、某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革的关系,随机抽取了189名员工进行调查,其中支持企业改革的调查者中,工作积极的54人,工作一般的32人,而不太赞成企业改革的调查者中,工作积极的40人,工作一般的63人.(1) 根据以上数据建立一个22⨯的列联表;(2) 对于人力资源部的研究项目,根据以上数据可以认为企业的全体员工对待企业改革的态度与其工作积极性是否有关系? 练习答案:1、解:提出假设0H :服用新药与产生副作用之间没有关系由已知数据可以求得63.686.781195050435461510022>=⨯⨯⨯⨯-⨯⨯=)(K所以有99%的把握认为新药与产生副作用是相关联的.0H :企业的全体员工对待企业改革的态度与其工作积极性无关.根据(1)中列联表的数据,可以求得879.7759.101038695943240635418922>≈⨯⨯⨯⨯-⨯⨯=)(K所以有99.5%的把握认为抽样员工对待企业改革的态度与其工作积极性是有关的.从而可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.。
独立性检验的基本思想及其初步应用》
独立性检验的基本思想及其初步应用》生更加直观地理解两个分类变量之间的关系。
问题2:根据三维柱形图和二维条形图,你能否看出吸烟者和不吸烟者患肺癌的比例有何不同?二、独立性检验的基本思想1、独立性检验的基本思想:独立性检验是用来检验两个分类变量是否有关系的一种统计方法。
如果两个分类变量是独立的,那么它们之间是没有关系的;如果两个分类变量不独立,则它们之间是有关系的。
2、独立性检验的步骤:1)列出列联表;2)计算期望频数;3)计算卡方值;4)查表得出显著性水平;5)判断两个分类变量是否有关系。
三、K2检验的计算公式1、K2检验的计算公式:K2=∑(Oi-Ei)²/Ei其中,Oi为观察频数,Ei为期望频数。
2、K2检验的含义:K2检验的值越大,观察频数与期望频数的差距越大,两个分类变量之间的关系就越显著。
四、独立性检验的应用举例1、应用举例:1)医学研究:调查吸烟是否对患肺癌有影响;2)社会调查:调查男女是否对某一品牌的喜好程度有影响;3)市场调查:调查年龄与消费金额是否有关系。
2、独立性检验的应用:通过独立性检验,可以判断两个分类变量是否有关系,从而为我们提供科学的依据,进行合理的决策。
教学反思:本节课通过生动的例子和图表,引入了独立性检验的基本概念和思想。
通过对K2检验公式的介绍,让学生了解了如何计算卡方值。
同时,通过应用举例,让学生了解了独立性检验的实际应用。
在教学过程中,教师注重启发学生的思维,让学生在合作探究中主动掌握知识,达到了预期的教学目标。
练1、在某医院,665名男性病人中,214人秃顶,而在772名非心脏病男性病人中,175人秃顶。
能否以99%的置信度认为“秃顶与患心脏病”有关系?思考1、为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别。
是否需要志愿者需要。
不需要男性。
30.170女性。
373.271)估计该地区老年人中需要志愿者提供帮助的比例;2)能否以99%的置信度认为该地区的老年人是否需要志愿者提供帮助与性别有关系?思考2、某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,能否以95%的置信度认为该学校15至16周岁的男生的身高和体重之间有关系?课后作业:课本第18页第1题和第2题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关 系,那么在100个吸烟的人中必有99个患肺病
B、从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说 某人吸烟,那么他有99%的可能患肺病
C、若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使得推理出现错误
1)变量的不同“值”表示个体的不同类别的变量
(也叫属性变量或者定性变量)
2)分类变量的取值一定是离散的 3)例如是性别,否吸烟,是否患肺癌,宗教信仰等等 4)研究两个分类变量相关关系的方法:
①通过图形直观判断两个分类变量是否相关; ②独立性检验法.
在日常生活中,我们主要考虑分类变量的之间是否有关系:例如, 吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。
独立性检验的基本思想 及其初步应用
第1课时
一.引入新课:
1.两种变量及研究相关关系的方法:
定量变量的取值一定是实数,它们的取值大小有特定 的含义,不同取值之间的运算也有特定的含义。
定量变量 例如:身高、体重、考试成绩,温度等等
研究两个定量变量相关关系的方法:回归分析(画散
变量
分类变量
2.引入:
点图,相关系数r,相关指数R2,残差分析等)
首先,假设结论不成立,即记 H0:吸烟和患肺癌之间没有关系 吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
吸烟的人中不患肺癌的比例: c
不吸烟的人中不患肺癌的比例:
c a
d
ab
若H0成立,即“吸烟与患肺癌没有关系”,则在吸烟者中不患肺癌的比例
应该与不吸烟中不患肺癌的比例应差不多,即
作为检验在多大程度上可以认为“两个变量有关系”的标准
分析:K2越小,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;
K2越大, |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
在假设H0成立,即“吸烟与患肺癌没有关系”成立的前提下,则K2应该很小. 故,当K2很小时,说明在一定可信程度上假设H0成立,即“吸烟与患肺癌
但也不能作出结论“H0成立”,即X与Y没有关系
解:假设H 0
:
吸烟与患肺癌没有关系
K 2的观测值为
k 9965(7775 49 42 2099)2 56.632 7817 2148 9874 91
根据临界值表可知P(K 2 10.828) 0.001
56.631远大于10.828,所以有理由判断H
不患肺癌比例
30%
20% 10%
0%
不吸烟
吸烟
注意:与表格相比,图形能 更直观地反映出相关数
由上述图形显然可以得到结论是:吸烟与患肺癌有关 据的总体状况。
思考:这种判断可靠吗?你能有多大把握认为“患病与吸烟有关”呢?
思考:通过数据和图表分析,得到结论是:吸烟与患肺癌有关.
这种判断可靠吗?你能有多大把握认为“患病与吸烟有关”呢?
例如:对于两个分类变量X与Y
(1)如果k>=10.828,就有99.9%的把握认为“X与Y有关系”;
(2)如果k>=6.635,就有99%的把握认为“X与Y有关系”; (3)如果k>=2.706,就有90%的把握认为“X与Y有关系”; (4)如果k<=2.706,就认为没有充分的证据显示“X与Y有关系”
由上表可看出,在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
根据统计分析的思想,用频率估计概率可知,吸烟者和不吸烟者患肺癌的可
能性存在差异,吸烟者患肺癌的可能性大
方法2.通过图形直观判断
等高条形图
100% 90%
患肺癌比例
80%
70%
60% 50% 40%
患肺癌 不患肺癌
D、以上三种说法都不对
1、理解分类变量,会作列联表及等高条形图 2、了解独立性检验的思想
3.独立性检验的基本思想:(类似于数学上的反证法,对“两个分 类变量有关系”这一结论成立可信程度的判断):
(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.
没有关系”成立 当K2很大时,说明没有充分的证据说明假设H0成立,即没有充分的
证据说明“吸烟与患肺癌没有关系”成立,即“吸烟与患肺癌没有 关系”不成立,即“吸烟与患肺癌有关系”成立,
思考:k2大小的标准是什么呢? 临界值k0
k2大小的标准是什么呢? 临界值k 临界值表
P(K 2 k) 0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
1.为了使不同样本容量的数据有统一的评判标准,基于上面的分
析,我们引入一个随机变量 K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
(其中n=a+b+c+d为样本容量)
不成立,
0
所以吸烟与患癌症有关系。
注:1)这种判断可能会犯错误,但是犯错误的不会超过0.001
,这是个小概率事件,即我们有99.9%的把握认为“吸 烟与患癌症有关系”
2)用 k 2统计量来确定在多大程度上可以认为“两个分类变量有关系”
的 方法称为这两个分类变量的独立性检验。
在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是
在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。 本节研究的是两个分类变量的独立性检验问题。
二.问题:
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了
9965人,得到如下结果(单位:人) 吸烟与患肺癌列联表(列出两个分类变量的频数表):
不患肺癌 患肺癌 总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
Hale Waihona Puke 9199652×2列联表
思考:根据以上表格。能否断定吸烟对患肺癌有影响?
判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异?
方法1.用频率估计概率
患病
吸烟
2.28%
不吸烟
0.54%
未患病 97.72% 99.46%
合 计(n) 100%(2148) 100%(7817)