高维列联表独立性与相关性
数学选修2-3 列联表独立性分析 精PPT课件
![数学选修2-3 列联表独立性分析 精PPT课件](https://img.taocdn.com/s3/m/03ac6dcda216147916112874.png)
7
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患病有关
用χ2统计量研究 这类问题的方法
步骤
结论的可靠 程度如何?
第一步:H0: 假设吸烟和患病之间没有关系 第二步:列出2×2列联表
吸烟 不吸烟
总计
患病
不患病
a
b
c
d
a+c
b+d
精选ppt课件2021
总计 a+b c+d a+b+c+d
8
第三步:引入一个随机变量:卡方统计量
n n n n n n
n1 n2
n2 n2
nn
nn
来衡量独立性的大小
可以化简为 2 n(n11n22 n12n21)2
n1 n2 n1n2
精选ppt课件2021
6
怎样描述实际观测值与估计值的差异呢?
统计学中采用
用 卡 方 统 计 量 :2
(观 测 值 预 期 值 )2 预 期 值
来 刻 画 实 际 观 测 值 与 估 计 值 的 差 异 .
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1000
解:设H0:感冒与是否使用该血清没有关系。
2 1000258 284 242 2162 7.075
474 526 500 500
因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认
现在的 2 =7.307的观测值远大于6.635,出 现这样的观测值的概率不超过0.010。
故有99%的把握认为H0不成立,即有99%的把 握认为“患病与吸烟有关系”。
2023年高考数学一轮复习精讲精练(新高考专用)专题52:列联表独立性检验(讲解版)
![2023年高考数学一轮复习精讲精练(新高考专用)专题52:列联表独立性检验(讲解版)](https://img.taocdn.com/s3/m/6b8ea2e6ab00b52acfc789eb172ded630b1c9833.png)
专题52:列联表独立性检验精讲温故知新1. 数值变量与分类变量数值变量:数值变量的取值为实数,其大小和运算都有实际含义.分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.注意点:分类变量的取值可以用实数来表示,例如男性,女性可以用1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并没有大小和运算意义.分类变量是相对于数值变量来说的.变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.2:列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量K2=n(ad-bc)(a+b)(a+c)(b+d)(c+d),其中n=a+b+c+d为样本容量.3. 分类变量与列联表的实际应用利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.4. 独立性检验的理解1.独立性检验:利用χ2的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验. 2.χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .注意点:(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.(2)当χ2≥x α时,我们就推断H 0不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α;当χ2<x α时,我们没有充分证据推断H 0不成立 ,可以认为X 和Y 独立. 根据所给的观测值,与所给的临界值表中的数据进行比较,即可得出结论. 5. 有关“相关的检验” 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论. 6. 有关“无关的检验” 运用独立性检验的方法(1)列出2×2列联表,根据公式计算χ2. (2)比较χ2与x α的大小作出结论题型一:列联表例1:假设有两个变量X 和Y ,他们的取值分别为1x ,2x 和1y ,2y ,其列联表为:则表中a ,b 的值分别是( ) A .94,96 B .54,52C .52,50D .52,60【答案】D【详解】根据列联表知,=732152a -=,又8a b +=,所以60b =, 故选:D举一反三下列是关于出生男婴与女婴调查的22⨯列联表那么D __________.【答案】82【详解】解:由题意,4598E +=,35A D +=,45A B +=,35E C +=,180B C +=47A ∴=,92B =,88C =,82D =,53E =故答案为: 82.题型二:等高条形图例2:为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )A .是否倾向选择生育二胎与户籍无关B .是否倾向选择生育二胎与性别有关C .倾向选择生育二胎的人员中,男性人数与女性人数相同D .倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数 【答案】D【详解】对于A ,城镇户籍中40%选择生育二胎,农村户籍中80%选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A 错误;对于B ,男性和女性中均有60%选择生育二胎,则是否倾向选择生育二胎与性别无关,B 错误; 对于C ,由于男性和女性中均有60%选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C 错误;对于D ,倾向选择不生育二胎的人员中,农村户籍有5020%10⨯=人,城镇户籍有5060%30⨯=人,农村户籍人数少于城镇户籍人数,D 正确.故选:D.举一反三为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:根据图中的信息,下列结论中不正确的是()A.样本中多数男生喜欢手机支付B.样本中的女生数量少于男生数量C.样本中多数女生喜欢现金支付D.样本中喜欢现金支付的数量少于喜欢手机支付的数量【答案】C【详解】对于A,由右图可知,样本中多数男生喜欢手机支付,A对;对于B,由左图可知,样本中的男生数量多于女生数量,B对;对于C,由右图可知,样本中多数女生喜欢手机支付,C错;对于D,由右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D对.故选:C.题型三:独立性检验的概念及计算例3:(2022·湖北武汉·模拟预测)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:跳绳性别合计男女爱好40 20 60 不爱好20 30 50已知()()()()()22n ad bcKa b c d a c b d-=++++,则以下结论正确的是()A.根据小概率值0.001α=的独立性检验,爱好跳绳与性别无关B.根据小概率值0.001α=的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001 C.根据小概率值0.01α=的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”D.根据小概率值0.01α=的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”【答案】A【详解】由题知()()()()()22 2110(40302020)7.82260506050n ad bcKa b c d a c b d-⨯-⨯==≈++++⨯⨯⨯因为7.82210.828<,所以爱好跳绳与性别无关且这个结论犯错误的概率超过0.001,故A正确,B错误,又因为7.822 6.635>,所以有99%以上的把握认为“爱好跳绳与性别有关,或在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别有关.故C和D错误.故选:A.举一反三1.(2022·江西南昌·一模(理))根据分类变量x与y的观察数据,计算得到2 2.974K=,依据下表给出的2K 独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是()A.有95%的把握认为变量x与y独立B.有95%的把握认为变量x与y不独立C.变量x与y独立,这个结论犯错误的概率不超过10%D.变量x与y不独立,这个结论犯错误的概率不超过10%【答案】D【详解】因为2 2.974 2.706K=>,所以变量x与y不相互独立,这个结论犯错误的概率不超过10%.故选:D 2.(2022·四川雅安·三模(文))为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的22K≈.参照附表,下列结论正确⨯列联表中,由列联表中的数据计算得29.616的是()附表:A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”C.有99%以上的把握认为“药物有效”D.有99%以上的把握认为“药物无效”【答案】C解:因为29.616<<,所以有99%以上的把握认为“药物有效”.K7.87910.828K≈,即2故选:C.题型四:独立性检验的基本思想例4:(2022·江西·二模(文))千百年来,我国劳动人民在生产实践中根据云的形状、走向速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩销云,地上雨淋林”“日落云里走,雨在半夜后”……小明同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下22⨯列联表:并计算得到219.05K=,下列小明对地区天气判断正确的是()A.夜晚下雨的概率约为1 5B.未出现“日落云里走”,但夜晚下雨的概率约为12C.出现“日落云里走”,有99.9%的把握认为夜晚会下雨D.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关【答案】D【详解】根据表中数据可知,夜晚下雨的概率约为252511002P+==,所以A错.未出现“日落云里走”,但夜晚下雨的概率约为255254514P==+,故B错.219.0510.828K=>,对照临界值表可知,有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,但不能说有99.9%的把握认为夜晚会下雨,故C错,D对.故选:D举一反三(2022·安徽省芜湖市教育局模拟预测(理))为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设0H :“这种血清不能起到预防感冒的作用”,利用22⨯列联表计算的结果,认为0H 成立的可能性不足1%,那么2K 的一个可能取值为( )A .7.879B .6.635C .5.024D .3.841【答案】A【详解】若0H 成立的可能性不足1%,则2 6.635K >,由选项知:27.879K =. 故选:A.题型五:独立性检验解决实际问题例5:(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?(2)从该地的人群中任选一人,A 表示事件“选到的人卫生习惯不够良好”,B 表示事件“选到的人患有该疾病”.(|)(|)P B A P B A 与(|)(|)P B A P B A 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R .(ⅰ)证明:(|)(|)(|)(|)P A B P A B R P A B P A B =⋅;(ⅱ)利用该调查数据,给出(|),(|)P A B P A B 的估计值,并利用(ⅰ)的结果给出R 的估计值.附22()()()()()n ad bc K a b c d a c b d -=++++,【解析】(1)由已知222()200(40906010)=24()()()()50150100100n ad bc K a b c d a c b d -⨯-⨯==++++⨯⨯⨯, 又2( 6.635)=0.01P K ≥,24 6.635>,所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异. (2)(i)因为(|)(|)()()()()=(|)(|)()()()()P B A P B A P AB P A P AB P A R P B A P B A P A P AB P A P AB =⋅⋅⋅⋅,所以()()()()()()()()P AB P B P AB P B R P B P AB P B P AB =⋅⋅⋅ 所以(|)(|)(|)(|)P A B P A B R P A B P A B =⋅,(ii) 由已知40(|)100P A B =,10(|)100P A B =,又60(|)100P A B =,90(|)100P A B =, 所以(|)(|)=6(|)(|)P A B P A B R P A B P A B =⋅举一反三(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++【详解】(1)甲机床生产的产品中的一级品的频率为15075% 200=,乙机床生产的产品中的一级品的频率为12060% 200=.(2)()22400150801205040010 6.63527013020020039K⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.精练巩固提升一、单选题1.(2022·全国·模拟预测)某初级中学有700名学生,在2021年秋季运动会中,为响应全民健身运动的号召,要求每名学生都必须在“立定跳远”与“坐位体前屈”中选择一项参加比赛.根据报名结果知道,有12的男生选择“立定跳远”,有34的女生选择“坐位体前屈”,且选择“立定跳远”的学生中女生占25,则参照附表,下列结论正确的是()附:()()()()()22n ad bc K a b c d a c b d -=++++,n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为选择运动项目与性别无关B .在犯错误的概率不超过5%的前提下,认为选择运动项目与性别无关C .有97.5%的把握认为选择运动项目与性别有关D .有95%的把握认为选择运动项目与性别有关【答案】C 【详解】解:由题意得:设该校男生人数为x ,女生人数为y ,则可得如下表格:由题意知12411524y x y =+,即43y x =,又x +y =700,解得300,400,x y =⎧⎨=⎩则()2270015030015010046.67 5.024300400250450K ⨯⨯-⨯=≈>⨯⨯⨯,所以有97.5%的把握认为选择运动项目与性别有关.故选C . 2.(2022·四川成都·三模(理))在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.根据列联表的独立性检验,则下列说法正确的是().A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看营养说明的人数比为3 4C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系D.在犯错误的概率不超过0.010的前提下认为性别与是否查看营养说明有关系【答案】C【详解】由题可得2270(15102025)= 5.83 5.02435353040K⨯⨯-⨯≈>⨯⨯⨯,∴在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系.故选:C.3.(2021·全国·模拟预测(理))为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”【答案】C【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =, 则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”.故选:C.4.(2021·安徽黄山·二模(理))下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大. 其中正确命题的个数是( )A .1个B .2个C .3个D .4个【答案】C解:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于0,表示回归效果越不好,①错误;②两个变量相关性越强,则相关系数的绝对值就越接近于1,②正确;③两个模型中残差平方和越小的模型拟合的效果越好,③正确;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,④正确.故选:C .5.(2022·河南·长葛市第一高级中学模拟预测(理))某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向全体学生开展了一次随机调查,其中参加调查的男、女生人数相同,并绘制成等高条形图(如图所示),则下列说法正确的是( ) ()20P K k ≥ 0.05 0.010k 3.841 6.635参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .参与调查的学生中喜欢攀岩的女生人数比喜欢攀岩的男生人数多B .参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多C .若参与调查的男、女生人数均为100人,则能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关D .无论参与调查的男、女生人数为多少,都能在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关【答案】C【详解】对于选项A :因为参加调查的男、女生人数相同,而男生中喜欢攀岩的占80%,女生中喜欢攀岩的占30%,所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,所以选项A 错误;对于选项B :参与调查的女生中喜欢攀岩的人数占30%,不喜欢攀岩的人数占70%,所以参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,所以选项B 错误;对于选项C :若参与调查的男、女生人数均为100人,根据图表,列出2×2列联表如下:所以()2220080702030500050.505 6.6351109010010099K ⨯⨯-⨯==≈>⨯⨯⨯, 所以在犯错误的概率不超过0.01的前提下认为喜欢攀岩和性别有关,C 正确;对于选项D :如果不确定参与调查的男、女生人数,无法计算2K ,D 错误.故选:C .6.(2022·山东聊城·一模)根据分类变量x 与y 的成对样本数据,计算得到2 6.147χ=.依据0.01α=的独立性检验()0.01 6.635x =,结论为( )A .变量x 与y 不独立B .变量x 与y 不独立,这个结论犯错误的概率不超过0.01C .变量x 与y 独立D .变量x 与y 独立,这个结论犯错误的概率不超过0.01【答案】C【详解】按照独立性检验的知识及比对的参数值,当2 6.147χ=,我们可以下结论变量x 与y 独立.故排除选项A,B;依据0.01α=的独立性检验()0.01 6.635x =,6.147<6.635,所以我们不能得到“变量x 与y 独立,这个结论犯错误的概率不超过0.01”这个结论.故C 正确,D 错误.故选:C7.(2022·天津·模拟预测)下列说法错误的是( )A .线性相关系数0r >时,两变量正相关 B .两个随机变量的线性相关性越强,则相关系数r 的值就越接近于1C .在回归直线方程ˆ0.20.8yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy 平增加0.2个单位 D .对分类变量X 与Y ,随机变量2χ的观测值越大,则判断“X 与Y 有关系”的把握程度越大【答案】B【详解】A :线性相关系数0r >时,变量为正相关,正确;B :两个随机变量的线性相关性越强,则相关系数||r 的值就越接近于1,错误;C :在回归直线方程ˆ0.20.8yx =+中,当1x ∆=时,ˆ0.2y ∆=,正确; D :对分类变量X 与Y ,随机变量2χ的观测值越大,变量间的关系把握程度越大,正确.故选:B8.(2020·河南·模拟预测(文))2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )附:()()()()()2n ad bc a b c d a c b d -++++,其中n a b c d =+++.A .130B .190C .240D .250【答案】B 【解析】【分析】设男、女学生的人数都为5x ,则男、女学生的总人数为10x ,建立22⨯列联表,由独立性检验算出2K ,结合观测值和选项可得答案.【详解】依题意,设男、女学生的人数都为5x ,则男、女学生的总人数为10x ,建立22⨯列联表如下,故()2222108310553721⋅-==⋅⋅⋅x x x x K x x x x ,由题意可得106.63510.82821x <<, 所以139.33510227.388x <<,结合选项可知,只有B 符合题意.故选:B.二、多选题9.(2021·福建福州·一模)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K 2的观测值为已知()2 6.6350.010P K =,()210.8280.001P K =,则下列判断正确的是( )A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .有99%的把握认为“光盘行动”的认可情况与年龄有关D .在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关【答案】AC【详解】∵K 2的观测值为9,且P (K 2≥6.635)=0.010,P (K 2≥10.828)=0.001,又∵9>6.635,但9<10.828,∴有99%的把握认为“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,所以选项C 正确,选项D 错误,由表可知认可“光盘行动”的人数为60人,所以在该餐厅用餐的客人中认可“光盘行动”的比例为6010090⨯%≈66.7%, 故选项A 正确,选项B 错误.故选:AC.10.(2022·湖南岳阳·三模)下列说法正确的是( )A .线性回归方程y bx a =+必过(,)x yB .设具有线性相关关系的两个变量x ,y 的相关系数为r ,则r 越接近于0,x 和y 之间的线性相关程度越强C .在一个22⨯列联表中,由计算得2K 的值,则2K 的值越小,判断两个变量有关的把握越大D .若()2~1,X N σ,()20.2P X >=,则()010.3P X <<= 【答案】AD【详解】因为线性回归方程y bx a =+必过样本中心点(,)x y ,所以选项A 正确; 因为r 越接近于0,x 和y 之间的线性相关程度越弱,所以选项B 不正确;因为2K 的值越小,确定两个变量有关的把握的程度越小,所以选项C 不正确;因为()2~1,X N σ,所以()()()1011220.32P X P X P X <<=<<=->=,因此选项D 正确,故选:AD 三、填空题11.(2020·宁夏·固原一中模拟预测(文))在独立性检验中,统计量K 2有两个临界值:3.841和6.635.当K 2>3.841时,有95%的把握说明两个事件有关,当K 2>6.635时,有99%的把握说明两个事件有关,当K 2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K 2=20.87.根据这一数据分析,我们有理由认为打鼾与患心脏病之间是________的(有关、无关).【答案】有关【详解】K 2=20.87>6.635时,有99%的把握说明打鼾与患心脏病有关.故答案为:有关12.(2022·全国·模拟预测)某大学为了解喜欢看篮球赛是否与性别有关,随机调查了部分学生,在被调查的学生中,男生人数是女生人数的2倍,男生喜欢看篮球赛的人数占男生人数的56,女生喜欢看篮球赛的人数占女生人数的13.若被调查的男生人数为n ,且有95%的把握认为喜欢看篮球赛与性别有关,则n 的最小值为______.【答案】12【详解】由题意得到如下列联表:所以2235263663822n n n n n n n n n n χ⎛⎫⋅-⋅⎪ ⎭⎝==⋅⋅⋅. 因为有95%的把握认为喜欢看篮球赛与性别有关,所以2 3.841χ≥,即3 3.8418n ≥, 3.841810.243n ⨯≥≈. 又2n ,3n ,6n 为整数,所以n 的最小值为12.故答案为:12 13.(2020·山西·大同一中模拟预测(理))某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________. 附表及公式:参考公式:K 2=2()()()()()n ad bc a b c d a c b d -++++. 【答案】0.05【详解】计算得K 2的观测值k =230(12828)14162010⨯⨯-⨯⨯⨯⨯≈4.286>3.841,则推断犯错误的概率不超过0.05.故答案为:0.05.14.(2022·辽宁葫芦岛·二模(理))下列说法:①线性回归方程y bx a =+必过(),x y ;②命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃<+<”③相关系数r 越小,表明两个变量相关性越弱;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系;其中正确..的说法是__________.(把你认为正确的结论都写在横线上) 本题可参考独立性检验临界值表: 【答案】①④详解:线性回归方程ˆˆˆybx a =+必过样本中心点(),x y ,故①正确. 命题“21,34x x ∀≥+≥”的否定是“21,34x x ∃≥+<” 故②错误③相关系数r 绝对值越小,表明两个变量相关性越弱,故不正确;④在一个22⨯列联表中,由计算得28.079K =,则有99%的把握认为这两个变量间有关系,正确.故答案为①④.四、解答题15.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.100 0.050 0.010k 2.706 3.841 6.635【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则24012 ()26013==P M;B共有班次240次,准点班次有210次,设B家公司长途客车准点事件为N,则210()27840==P N.A家公司长途客车准点的概率为12 13;B家公司长途客车准点的概率为7 8 .(2)列联表22()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯, 根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关. 16.(2020·全国·高考真题(文))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯=(3)22⨯列联表如下:()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯, 因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
高中数学知识点精讲精析 独立性检验 (4)
![高中数学知识点精讲精析 独立性检验 (4)](https://img.taocdn.com/s3/m/7f3cac7177232f60ddcca170.png)
1.2 独立性检验1.与列联表相关的概念:①分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,⨯. 如吸烟与患肺癌的列联表:这样的列联表称为222.三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.3. 独立性检验的基本思想:①独立性检验的必要性:列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.②独立性检验的步骤(略)及原理(与反证法类似):1.探究“吸烟是否与患肺癌有关系”引出独立性检验的问题【解析】 上例的解决步骤第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系第二步:选择检验的指标 22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大. 第三步:查表得出结论2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗? 【解析】由公式469.728356134205)1316212143(3392=⨯⨯⨯⨯-⨯⨯=K ,因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
3.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别。
〖2021年整理〗《知识精讲列联表独立性分析》优秀教案
![〖2021年整理〗《知识精讲列联表独立性分析》优秀教案](https://img.taocdn.com/s3/m/a9990881561252d381eb6e5e.png)
列联表独立性分析——知识精讲一、列联表独立性分析1.列联表教材引例中给出的表称为列联表,意思是要考虑调查的人的两种状态:是否吸烟,是否患肺癌;每种状态又分为两种情况:吸烟、不吸烟以及患肺癌、未患肺癌。
表中排成两列的数据是调查得来的结果,根据这4个数据来检验上述两种状态是否有关。
2.独立性分析利用随机变量22()()()()()n ad bcKa b c d a c b d-=++++(其中n a b c d=+++为样本容量)来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
在列联表独立性检验中,随机变量的观测值2()()()()()n ad bca b c d a c b d-++++可以确定“与有关系”的可信程度。
(1)如果,就有的把握认为“与有关系”;(2)如果,就有的把握认为“与有关系”;(3)如果,就有99的把握认为“与有关系”;(4)如果,就有的把握认为“与有关系”;(5)如果,就有95的把握认为“与有关系”;(6)如果,就有90的把握认为“与有关系”;(7)如果 2.706k≤,就认为没有充分的证据显示“与有关系”。
二、范例剖析例1 磨牙不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:磨牙与肠道中有寄生虫有关吗?分析:根据题中的数据计算的值,对比表中的各个临界值说明把握程度。
解析:根据题意计算,得221633(22413553024)1244.51025413792481385K ⨯⨯-⨯=≈⨯⨯⨯, 因为1244.51010.828>,所以有%把握说磨牙与肠道中有寄生虫有关。
评注:独立性检验是考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的重要方法。
独立性检验能帮助我们对日常生活中的实际问题做出合理的推断和预测,因此要在学习中,应通过案例分析,理解和掌握独立性检验的方法,体会其基本思想在解决实际问题中的应用,以提高我们分析和处理问题的能力。
列联表独立性分析案例演示文稿
![列联表独立性分析案例演示文稿](https://img.taocdn.com/s3/m/17cda4e0541810a6f524ccbff121dd36a32dc49f.png)
等高 条形图
患肺癌 不患肺癌
不吸烟
第15页,共29页。
吸烟与肺癌的调查数据
60
40
患肺 癌
不患 肺癌
总计
35 30
50 40
25
吸烟 39 15 54
20 15
吸烟
30
不吸烟 20
不吸 烟
21
25
46
10 5 0
患肺癌
不吸烟 吸烟
10 0
总计 60 40 100
不患肺癌
吸烟
不吸烟
100%
90%
练习:为考察高中生性别与是否喜欢数学课程之间的关系,在 某城市的某校高中生中随机抽取300名学生,得到如下列联表:试分析: 高中生的性别差异是否会对喜欢数学课程程度产生影响?为什么?
男
X
女
总计
喜欢数学课程
Y
37
35
72
不喜欢数学课程 85
143 228
总计 122 178 300
设计意图:发展学生的应用意识,是高中数学课程标准所 倡导的重要理念之一。在教学中以具体问题为载体,加深学 生对独立性检验的理解,体验数学在实际生活中的应用。
女生 男生
喜欢数学课程 不喜欢数学课程
第26页,共29页。
练习:请思考独立性检验基本思想的形成过程,以小组交流讨论方式, 完成如下表。
反证法 要证明结论A
在A不成立的前提下进行推 理
独立检验 备选假设H1
在H1不成立的条件下,即 H0成立的条件下进行推理
推出矛盾,意味着结论A成 立
推出有利于H1成立的小概率 事件(概率不超过a的事件) 发生,意味着H1成立的可能 性很大(可能性为1-a)
高维列联表独立性与相关性
![高维列联表独立性与相关性](https://img.taocdn.com/s3/m/b3c84a3eee06eff9aef80712.png)
r c t 2
高维列联表的相关性
• 在三维列联表中,前面所有的独立性问题讨论完 后,可以进一步分析三个变量之间的相关关系。 • 相关关系有两种情况:
– 一种是饱和模型,表示为(ABC),即期望频数不能分解, 三个属性之间不仅两两存在交互作用,而且三个之间 也有交互作用;其期望频数的估计就是实际频数nijk。 – 另一种是齐次关联模型,表示为(AB,AC,BC),即期望 频数可分解,两两之间存在交互作用,但三个之间没 有交互作用;其期望频数的估计需要使用迭代算法。
• • • •
用期望频数定义条件独立性的方法: 若存在ξij,ωik使任意格都有: mijk ijik 则称A给定后B和C条件独立。 其中mijk的估计为: nij i k
ˆ mijk ni
高维列联表的独立性
• 与给定A后B和C条件独立类似,可以得到 给定B后A和C条件独立、给定C后A和B条 件独立的期望频数定义。 • 根据三维列联表独立性的三种情况下不同 的期望频数的估计,可以构造出似然比检 验统计量:
高维列联表的优比
• 我们知道,在优比等于1时,这两个属性相互独立 • 所以,对于属性A,B,C相互独立时,不论按哪个属 性分层,各层二维表的优比总等于1; • 对于A与(B,C)相互独立时,按属性A分层后第i层 二维c×t列联表的优比与i无关,故各层B与C的相 合程度相同;无论按B,或C分层,这些二维列联 表上的优比总等于1;由期望频数定义的独立性可 知:
高维列联表的优比
• 期望频数除用来描述列联表的独立性、相 关性外,还可以描述优势比。 • 优比不仅可以用于四格表,还可推广到一 般的二维列联表。 • 可以取二维表的两行两列来构造一个四格 表计算优比,二维表有若干个优比。 • 三维列联表可以按某一属性分层后形成若 干二维列联表再进行优比分析。
高维列联表 pearson和cmh检验法
![高维列联表 pearson和cmh检验法](https://img.taocdn.com/s3/m/24e759f1d4bbfd0a79563c1ec5da50e2524dd105.png)
高维列联表 pearson和cmh检验法
高维列联表是指有多个行和多个列的列联表,其中每个单元格中包含了多个分类变量的数据。
在进行高维列联表分析时,需要选择合适的统计方法来检验变量之间的关系。
两种常见的方法是pearson检验法和cmh检验法。
pearson检验法是一种简单的列联表分析方法,它基于卡方统计量来计算各个变量之间的相关性。
该方法适用于二元变量或低维列联表。
当列联表中的变量维度较高时,pearson检验法可能会出现问题,因为其假设了各个变量之间的相关性是线性的。
相比之下,cmh检验法则是一种更为灵活的高维列联表分析方法。
该方法基于卡方分布和自由度来进行分析,可以有效处理高维度和非线性关系的数据。
cmh检验法不仅可以检验各个变量之间的相关性,还可以考虑多个变量同时影响结果的情况。
总的来说,pearson检验法和cmh检验法都是有用的数据分析工具,但它们各自的适用范围有所不同。
在进行高维列联表分析时,需要根据具体情况来选择合适的方法。
- 1 -。
第5章高维列联表
![第5章高维列联表](https://img.taocdn.com/s3/m/9a389533f78a6529647d53f9.png)
高维列联表的结构
【例】为了解不同年龄的男性,吸烟与呼吸系统疾病 之间的关系,调查数据见下表:
上表为三维2×2×2列联表。其中,“年龄”为层 属性,“呼吸情况”为行属性,“吸烟情况”为列 属性。
在每一层,都是一个二维列联表。
部分表中的关联性称为条件关联性,即某个属 性给定(被控制)时,另外两个属性之间的关系。
部分表的条件关联性可能和边缘表中的关联性 有较大差异,甚至是自相矛盾(辛普森悖论)。
正是边缘表与部分表分析的条件发生变化,所 以把压缩与分层结合起来分析是完全必要的。
部分表与边缘表
从分层后的两张二维表(部分表)中,根据各 自的卡方值可以看出,
2
nijk
ln
nik n jk nk nijk
2
nijk
ln
nij ni k ni nijk
2
nijk
ln
nijn jk n jnijk
t(r 1)(c 1) r(c 1)(t 1) c(r 1)(t 1)
在年龄<40的部分表中,吸烟情况与呼吸情况是相互独立的; 而在另一个部分表即年龄40~59的二维表中,二者则是相关
联的(或不独立)。
从按年龄合并、压缩后的二维表(边缘表)来 看,吸烟情况与呼吸情况之间是相关联的。
可见,部分表与边缘表关联性不一致,有时甚 至会明显矛盾,完全相反。
部分表与边缘表
如果条件独立性检验都被拒绝时,说明三 种属性之间具有相关关系,需要进一步分 析,以确定是否仅两两相关,还是包括三 次交互效应(称为饱和模型)。
2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版
![2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版](https://img.taocdn.com/s3/m/6947a0d94afe04a1b071de44.png)
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
新教材高中数学第八章列联表与独立性检验:分类变量与列联表pptx课件新人教A版选择性必修第三册
![新教材高中数学第八章列联表与独立性检验:分类变量与列联表pptx课件新人教A版选择性必修第三册](https://img.taocdn.com/s3/m/17d90bc505a1b0717fd5360cba1aa81144318f20.png)
请根据以上数据作出饮食习惯与年龄的列联表,并利用
P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关联.
解:用 Ω 表示调查的 124 位居民的饮食习惯所构成的集合,对于 Ω
0,蔬菜为主,
中的每一位居民,定义一对分类变量 X 和 Y 如下:X=
色素为阳性的频率.
由图可以直观地看出铅中毒病人组与对照组中尿棕色素为阳
性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关联.
方法规律
利用等高堆积条形图判断两个分类变量是否有关联的步骤
【跟踪训练】
2.现行普通高中学生在高一时面临着选科的问题,学校抽取了部
分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图: 根
答案:B
探索点一
用 2×2 列联表分析两变量的关联性
【例 1】在对人们饮食习惯的一次调查中,从某一居民小区
中共调查了 124 位居民,其中六十岁以上(包含六十岁)的有 70 人,
六十岁以下的有 54 人.六十岁以上(包含六十岁)的人中有 43 人
的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中
8.3
8.3.1
[学习目标]
列联表与独立性检验
分类变量与列联表
1.理解分类变量与列联表的含义.
2.能用列联表、等高堆积条形图探讨两个分类变量的关联性,
发展数据分析素养.
分类变量与列联表
[知识梳理]
1.分类变量
在讨论一定范围内的两种现象或性质之间是否存在关联性
或相互影响的问题时,经常会使用一种特殊的随机变量,以区别不
X
X=x1
X=x2
合计
8.4列联表独立性分析案例
![8.4列联表独立性分析案例](https://img.taocdn.com/s3/m/d642133ef18583d0496459a0.png)
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关
解
2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
2023届高考数学复习 第48讲 数据分析 —— 列联表与独立性检验(共39张PPT)
![2023届高考数学复习 第48讲 数据分析 —— 列联表与独立性检验(共39张PPT)](https://img.taocdn.com/s3/m/3781646d302b3169a45177232f60ddccda38e6db.png)
研题型 ·融会贯通
分类解析
独立性检验
某高中学校为了解高二年级学生在 2021 年高考和中考期间居家学习的自制
力,随机抽取了 100 名学生,请他们的家长(每名学生请一位家长)对学生打分,满分为
10 分.下表是家长所打分数 x 的频数统计:
分数 x
5
6
7
8
9
10
频数
5
15
20
25
20
15
(1) 求家长所打分数的平均值 x ;
0.001
xα
3.841
以下结论中正确的是( C )
6.635
10.828
A. 在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别有关”
B. 在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别无关”
C. 有 99%以上的把握认为“生育意愿与城市级别有关”
D. 有 99%以上的把握认为“生育意愿与城市级别无关”
愿,某机构用简单随机抽样方法从不同地区调查了 100 位育龄妇女,结果如下表:
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由 χ2=a+bcn+add-ab+cc2b+d,
得 χ2=100×65×453×5×225-8×204×2132≈9.616.
参照下表,
α
0.050
0.010
男性
30
15
45
女性
45
10
55
总计
75
25
100
附:
α
0.15
列联表与独立性检验课件高三数学一轮复习
![列联表与独立性检验课件高三数学一轮复习](https://img.taocdn.com/s3/m/3a990f17e55c3b3567ec102de2bd960591c6d905.png)
【解析】选A.由题意知,通过对列联表的数据进行处理 ,计算得到随机变量 χ2≈56.632>10.828=x0.001, 所以在犯错误的概率不超过0.001的前提下,认为“吸烟与患肺癌有关系”.
4.(不理解独立性检验方法)已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢 某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235, 则根据小概率值α= 0.01 的χ2独立性检验,分析喜欢该项体育运动与性别有 关. 【解析】因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分 析喜欢该项体育运动与性别有关.
(3)χ2的大小是判断事件A和B是否相关的统计量.( √ ) (4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.( × ) 提示: (4)在2×2列联表中,若|ad-bc|越小,说明卡方值越小,即两个分类变量之间 关系不强,所以(4)错误.
2.(选修第三册P134练习4改编)某课外兴趣小组通过随机调查,利用2×2列联表和 χ2统计量研究数学成绩优秀是否与性别有关.计算得χ2=6.748,经查阅临界值表知 P(χ2≥6.635)=0.010,则下列判断正确的是( ) A.每100个数学成绩优秀的人中就会有1名是女生 B.若某人数学成绩优秀,那么他为男生的概率是0.010 C.有99%的把握认为“数学成绩优秀与性别无关” D.在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关” 【解析】选D.因为χ2=6.748≥6.635,所以有99%的把握认为“数学成绩优秀与性别 有关”,即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”.所 以ABC错误.
独立性检验--高三一轮复习之统计案例
![独立性检验--高三一轮复习之统计案例](https://img.taocdn.com/s3/m/e5bd4c0ebcd126fff7050b5b.png)
独立性检验1. 列联表独立性分析案例用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等. 22⨯列联表 a b a+b cd c+d a+cb+d a+b+c +d ))()()(())((22d b c a d c b a bc ad d c b a K ++++-+++= 若0k k ≥则有%100))(1(02⨯≥-k K P 的把握认为两分类变量有关系犯错误的概率为%100)(02⨯≥k k P )(02k K P ≥0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828当K2≥3.841时,则有95%的把握说事A 与B 有关;当K2≥6.635时,则有99%的把握说事件A 与B 有关;当K2≤2.706时,则认为事件A 与B 无关.例1、独立性检验中的统计假设就是假设相关事件A ,B ( )A.互斥B.不互斥C.相互独立D.不独立例2、提出统计假设0H ,计算出2χ的值,则拒绝0H 的是 ( )A.27.331χ=B.2 2.9χ=C.20.8χ=D.2 1.9χ=例3.下列说法中正确的是 ( ) ①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设0H 条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝0H 的推断;③独立性检验一定能给出明确的结论.A. ①②B.①③C.②③D.①②③例4、考察棉花种子经过处理跟生病之间的关系得到如下表数据:种子处理 种子未处理 合计 得病32 101 133 不得病61 213 274 合计93 314 407根据以上数据,则( )(A)种子经过处理跟是否生病有关 (B)种子经过处理跟是否生病无关(C)种子是否经过处理决定是否生病 (D)以上都是错误的例5.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人,六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主。
83列联表与独立性检验(基础知识基本题型)(含解析)-高二数学下学期(人教A版2019选择性)
![83列联表与独立性检验(基础知识基本题型)(含解析)-高二数学下学期(人教A版2019选择性)](https://img.taocdn.com/s3/m/e0fa005b0812a21614791711cc7931b764ce7b52.png)
8.3 列联表与独立性检验(基础知识+基本题型)知识点一 列联表与等高条形图1.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表(也称为22⨯列联表)为:1y 2y 总计 1x aba b + 2xc d c d + 总计a c +b d +a b c d +++2.等高条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.图就是一个等高条形图,其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率. 提示⑴等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即a ab +和c c d+相差很大),就判断两个分类变量之间有关系. ⑴列联表与等高条形图的关系与特点:它们都可以用来分析分类变量之间是否有关系,但等高条形图能更直观地反映出两个分类变量是否相互影响. 知识点二 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.要判断“两个分类变量有关系”,首先假设该结论不成立,即“0H :两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K 应该很小.若由观测数据计算得到的2K 的观测值k 很大,则断言0H 不成立,即认为“两个分类变量有关系”;若观测值k 很小,则说明在样本数据中没有发现足够证据拒绝0H .上面这种利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. 提示独立性检验与反证法的比较一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表为:若要推断的论述为1H :“X 与Y 有关系”.⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查临界值表确定临界值0k . 附:临界值表⑴利用公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++,计算随机变量2K 的观测值k .⑶如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.考点一利用等高条形图判断两个分类变量之间的关系例1为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组合对照组的尿棕色素定性检查,结果如下表:用等高条形图判断铅中毒病人和对照人群的尿棕色素阳性数有无差别.解:根据列联表,画出等高条形图,如图所示.其中,阴影部分的高分别为病人组和对照组中尿棕色素呈阴性的频率.比较图中两个无色条的高可以发现,病人组中尿棕色素呈阳性的频率要比对照组中尿棕色素呈阳性的频率高很多,因此,只管上可以认为铅中毒病人和对照人群的尿棕色素阳性数有差别.(1)利用等高条形图可以粗略地判断两个分类变量是否有关系.(2)还可以利用ad bc-越大,说明两个分类变量的关-的大小判断两个分类变量关系的强弱,ad bc系越强;ad bc-越小,说明两个分类变量的关系越弱.考点二独立性检验的相关检验例2某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.他们两人的结论正确吗?他们的结论为什么不一样? 解:正确.由列联表中的数据求得2K 的观测值为()21895463403210.759949586103k ⨯⨯-⨯=≈⨯⨯⨯.10.7597.879 6.635>>,若以07.879k =为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;若以0 6.635k =为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系. 故李明和张宇的结论都正确.造成结论不一样的原因是两人采用了两种不同的判断规则,即所选用的临界值不同.总结:随机变量2K 的观测值k 越大,说明“X 与Y 有关系”成立的可能性越大,因为根据列联表中数据求得2K 的观测值k ,而选用不同的临界值0k 作为比照时,认为“X 与Y 有关系”犯错误的概率就会有所有所不同.考点三 独立性检验的无关检验 例3 为了研究高中学生选学文科、理科是否与“对外语的兴趣”有关,某老师调查了361名高二在校学生,调查结果如下:理科对外语感兴趣的有138人,不感兴趣的有52人.能否在犯错误的概率不超过0.1的前提下认为学生选学文科、理科与“对外语的兴趣”有关? 解:由上表,知138a =,73b =,98c =,52d =,211a b +=,150c d +=,236a c +=,125b d +=,361n =, 代入公式,得2K 的观测值为()24361138527398 1.87110211150236125k -⨯⨯-⨯=≈⨯⨯⨯⨯.因为41.87110 2.706-⨯<,所以在犯错误的概率不超过0.1的前提下不能推断学生选学文科、理科与“对外语的兴趣”有关. 总结(1)计算()()()()22()n ad bc K a b c d a c b d -=++++,如果2K 的值较大,就拒绝假设,也就是拒绝两个分类变量无关,从而认为它们是有关的.(2)若2 6.635K ≥,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关;若2 2.706K ≤,则认为没有发现足够证据说明两个分类变量有关. 考点四 独立性检验的基本思想及综合应用例4 下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异. 解:(1)假设0H :传染病与饮用水的卫生程度无关. 把表中数据代入公式,得2K 的观测值为()2830522184669454.21518312146684k ⨯⨯-⨯=≈⨯⨯⨯,因为54.2110.828>,所以拒绝0H .因为在犯错误的概率不超过0.001的前提下认为这种传染病与饮用水的卫生程度有关. (2)依题意,得如下列联表:根据列联表中的数据得到2K 的观测值为()286522509 5.78555311472k ⨯⨯-⨯=≈⨯⨯⨯.因为5.785 5.024>,所以在犯错误的概率不超过0.025的前提下认为这种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中是在犯错误的概率不超过0.001的前提下认为结论正确,(2)中是在犯错误的概率不超过0.025的前提下认为结论正确.解决这类问题,关键是正确计算2K 的观测值,利用临界值来进行判断.如果求出的2K 的观测值很大,就认为两个分类变量有关;如果2K 的观测值很小,就认为没有足够证据说明两个分类变量有关. 例5 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目不低于40min 的观众称为“体育迷”.(1)根据已知条件完成下面的列联表,并据此资料你是否能在犯错误的概率不超过0.05的前提下“体(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3此,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,数学期望()E X 和方差()D X .解:(1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有()1000.0200.0051025⨯+⨯=(人) 则22⨯列联表如下:将列联表中的数据代入公式计算,得2K 的观测值为()210030101545 3.03045557525k ⨯⨯-⨯=≈⨯⨯⨯.因为3.030 3.841<,所以在犯错误的概率不超过0.05的前提下没有足够的理由认为“体育迷”与性别有关.(2)由频率分布直方图,知随机抽到“体育迷”的概率为14.将频率视为概率,即从观众中随机抽到1名“体育迷”的概率为14. 由题意,知13,4XB ⎛⎫⎪⎭,从而X 的分布列为()13344E X =⨯=, ()119314416D X ⎛⎫=⨯⨯-= ⎪⎝⎭.(1)解决第(1)问的关键是先根据频率分布直方图求出“体育迷”的人数,进而完成22⨯列联表,再计算出的观测值2K ,从而作出判断.(2)解决第(2)问的关键是正确写出分布列.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高维列联表的独立性
pi jk
• 即
pi
pi j pi
pi k pi
pi jk =
pi j pi
pi k
• 四格表的优比用期望频数定义为:
mi1 j1 mi2 j2 mi1 j2 mi2 j1
,1 i1 i2 r ,1 j1 j2 c
• 其行与列分别是二维r*c列联表的第i1和i2行 与第j1和j2列,mij是期望频数:mij=E(nij) • 对于三维r*c*t列联表,我们按属性A分层, 将它变成r个二维c*t列联表,对第i层二维c*t 列联表计算优比: mij1k1 mij2 k2 ,1 j1 j2 c,1 k1 k2 t mij1k2 mij2 k1
mijk ˆ G 2 ln 2 nijk ln n i 1 j 1 k 1 ijk
r c t 2
高维列联表的相关性
• 在三维列联表中,前面所有的独立性问题讨论完 后,可以进一步分析三个变量之间的相关关系。 • 相关关系有两种情况:
– 一种是饱和模型,表示为(ABC),即期望频数不能分解, 三个属性之间不仅两两存在交互作用,而且三个之间 也有交互作用;其期望频数的估计就是实际频数nijk。 – 另一种是齐次关联模型,表示为(AB,AC,BC),即期望 频数可分解,两两之间存在交互作用,但三个之间没 有交互作用;其期望频数的估计需要使用迭代算法。
高维列联表的优比
• 期望频数除用来描述列联表的独立性、相 关性外,还可以描述优势比。 • 优比不仅可以用于四格表,还可推广到一 般的二维列联表。 • 可以取二维表的两行两列来构造一个四格 表计算优比,二维表有若干个优比。 • 三维列联表可以按某一属性分层后形成若 干二维列联表再进行优比分析。
高维列联表的优比
高维列联表的独立性
• 独立性的定义可以使用概率方式,也可以 采用期望频数来定义。三维列联表独立性 的定义与二维列联表类似。 • 在三维列联表中,令mijk为期望频数,若存 在αi,βj,γk使任意格(ijk)都有: mijk i j k • 则称A、B、C相互独立。 • 其中mijk的估计为: ni n j n k
高维列联表的优比
• 我们知道,在优比等于1时,这两个属性相互独立 • 所以,对于属性A,B,C相互独立时,不论按哪个属 性分层,各层二维表的优比总等于1; • 对于A与(B,C)相互独立时,按属性A分层后第i层 二维c×t列联表的优比与i无关,故各层B与C的相 合程度相同;无论按B,或C分层,这些二维列联 表上的优比总等于1;由期望频数定义的独立性可 知:
1 1 1 1 2 2 2 2 1 1 1 2
(ij1 j1k1ik1 )(ij2 j2k2 ik2 )
2 2
2 1
• 对相关关系的分析,还可以通过对数线性模型和 统计软件进行分析。
高维列联表的相关性
• 对期望频数的迭代估计类似于二维不完备 列联表中的迭代算法。 • 对仅有两两交互作用模型检验的原假设应 为:
mijk ij jkik
• 采用的似然比检验统计量与独立性检验的 统计量完全相同; • 当检验统计量的卡方值较小时,不拒绝原 假设;当卡方值较大时,拒绝原假设。
• • • •
用期望频数定义条件独立性的方法: 若存在ξij,ωik使任意格都有: mijk ijik 则称A给定后B和C条件独立。 其中mijk的估计为: nij i k
ˆ mijk ni
高维列联表的独立性
• 与给定A后B和C条件独立类似,可以得到 给定B后A和C条件独立、给定C后A和B条 件独立的期望频数定义。 • 根据三维列联表独立性的三种情况下不同 的期望频数的估计,可以构造出似然比检 验统计量:
• 对于齐次关联模型,各层二维列联表的优比都与在 第几层没有关系。当以属性A进行分层时,由下式 可证得结论,以B,C进行分层的情形与此类似。
mij1k1 mij2k2 mij1k2 mij2k1
jkj k (ij j k ik )(ij j k ik mij2 k2 mij1k2 mij2 k1
( i j 1 k1 )( i j 2 k2 ) ( i j 1 k2
2 1
j k j )( i j k ) j k j
1 1 1 2
2 k2 2 k1
高维列联表的优比
• 对于A给定后B和C条件独立时,按A分层的 二维列联表上的优比总等于1;且按B分层各 层A与C相合程度相同,按C分层各层A与B相 合程度相同。
ˆ ˆ ˆ ˆ mijk =npi jk npi p j p k n ni n j n k n2 n n n
高维列联表的独立性
• • • • 若存在αi,ηjk使任意格都有: mijk jk i 则称A和(B,C)相互独立。 其中mijk的估计为:m ni jk ˆ ijk n 与A和(B,C)相互独立的情况类似,可以得 到B和(A,C)以及C 和(A ,B)相互独立的期望 频数的定义。 • A给定后,B和C条件独立意味着: