高中数学 统计 板块五 独立性检验完整讲义(学生版)
高二数学独立性检验PPT课件
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
和Ⅱ有关系”; ≥ ②若观测值χ2——6.635,则有99%的把握认为“Ⅰ和
Ⅱ有关系”; ≤ ③若观测值χ2——2.706,则认为没有充分的证据显
示“Ⅰ和Ⅱ有关系”,但也不能作出“Ⅰ和Ⅱ没 有关系”.
.
3
复习回顾 5.反证法原理与假设检验原理
反证法原理:在一个已知假设下,如果推出一个矛盾, 那么这样说明了这个假设不成立。
假设检验原理:在一个已知假设下,如果一个与该假设 矛盾的小概率事件发生,那么推断这个 假设不成立.
.
4
;单创:/News/Detail/2019-9-20/442424.htm
;
我也是服了!“ (9)“您就当浪子回头吧,兴许真考上了,您也是积德了。”我回复了微信,也不忘调侃地加了几个坏笑的表情。 (10)之后,因为工作的关系,我离开了那座城市,也与律师楼和老李少了很多的交集。 (11)青海茫崖的矿难,突然成为了这个国家的头条新闻。部分矿务局 领导受贿私自外包矿坑,私人小矿主违规野蛮开采,导致了一次灭顶的矿难。在矿难中死去的矿工遗孀,因为没有基本的合同和安全保险凭据,无法获得赔偿,更无人愿意替他们去争取权利。 (12)就当矿难的悲哀正在褪去的时候,媒体上一个很不起眼报道终于被我看到了。 一个名叫常远的 律师,带领着自己的小团队义务承揽下了所有死难矿工的索赔事务。这条很小的信息,却因为这个熟悉而又陌生的名字而让我震惊。 (13)我立刻致电李信律师的时候,他确认道“没错,就是他,我也很佩服这小子。” (14)“您觉得他接这个案子是为了出名吗?”我问道。 (15)“还真不 是。你记得他曾经在青海一个矿区的酒吧演出过一段时间吧。”老李继 续说道。 “那地方就在茫崖。听常
独立性检验-高二数学课件(人教B版2019选择性必修第二册)
(1)事件 (2)事件
A B
发生的概率可估计为P( A) 发生的概率可估计为P(B)
a a
c n b
(3)事件 AB 发生的概率可估计为
P(
n AB)
a
n
如果 A 与 B 独立,那么上述 P( AB)与 P( A )P( B )的估计值
相差不会太大,注意到总数为 n,因此利用后者可以估计出,理论上
非优秀 45 30
总计 55 50
总计
30
75
105
题型二:独立性检验解决实际问题
例5:有甲乙两个班级进行数学考试,按照大于等于85分为优秀,85分
以下为非优秀统计成绩后,得到如下的列联表.已知在全部105人中随机 抽取1人为优秀的概率为 2 .
7
(2)根据列联表的数据,若按照95%的可靠性要求,能否认为“成绩与班
既是 A 又是 B 的数据有n P( A )P( B )个,注意到实际的数据为 a
(即n P( AB ))个,因此
[nP( AB) nP( A)P(B)]2 [na n(a c)(a b)]2
nP( A)P(B)
na c(a b)
不会太大.
类似地,考虑 A 与 B ,A 与 B ,A 与 B ,可知
3
33
合计 3x x 4x 11.20 x 14.65 33.60 3x 43.96
题型二:独立性检验解决实际问题
例4:某年调查某桑场采桑人员和不采桑人员的桑毛虫皮炎发病情 况,结果如表所示,利用列联表的独立性检验估计“患桑毛虫皮 炎病与采桑”是否有关?认为两者有关系犯错误的概率是多少?
采桑 不采桑 合计
由于12.981>6.635,所以在犯错误的概率不超过1%的前提下,
高中数学选修课件第三章§独立性检验
针对性解决策略和建议
深入理解独立性概念
明确事件独立与随机变量独立的区别,熟练掌握 相关公式和定理的适用条件。
正确选择统计性检验。
ABCD
重视样本容量的选择
在进行独立性检验时,应根据实际情况选择合适 的样本容量,以保证结果的准确性。
明确显著性水平的意义
结果分析与讨论
结果描述
详细阐述检验结果,包 括统计量、显著性水平
等信息。
结果解释
结合研究问题和假设, 对检验结果进行合理解
释。
结果比较
将本研究结果与已有研 究进行比较,分析异同
点。
结果推广与应用
探讨本研究结果的推广 价值和应用前景。
06
独立性检验常见问题及解决方法
常见错误类型及原因剖析
错误理解独立性概念
在判断两个分类变量是否独立时,需 要结合实际情况和专业知识进行综合 判断,避免盲目依赖统计结果。
在计算卡方统计量时,需要注意期望 频数的计算方法,避免出现计算错误 。
需要注意独立性检验只能判断两个分 类变量之间是否存在关联,但不能确 定它们之间的因果关系。
03
独立性检验在统计学中应用
统计分析中作用
实际操作流程演示
确定研究问题和假设
明确研究目的,提出假设并确定检验标准 。
结果解释与报告
对检验结果进行解释,得出结论并撰写报 告。
收集数据
根据研究问题和假设,选择合适的方法收 集数据。
进行独立性检验
根据所选用的检验方法,对数据进行计算 和分析。
数据整理与预处理
对收集到的数据进行整理、清洗和转换, 以便于后续分析。
独立性检验可以帮助我们更好 地理解概率论中的基本概念, 如条件概率、联合概率等。
高中数学选修课件第一章:独立性检验
注意事项与误区提示
在进行独立性检验前,需要确保样本 的随机性和代表性,以避免因样本偏 差导致结果失真。
需要注意的是,独立性检验只能判断 两个变量之间是否存在统计上的独立 性,并不能说明它们之间是否存在因 果关系或其他形式的关联。
在解读结果时,需要注意概率值(p 值)或临界值表的具体含义和适用条 件,避免误用或滥用。
高中数学选修课件第一 章:独立性检验
汇报人:XX 20XX-01-30
contents
目录
• 独立性检验基本概念 • 独立性检验基本思想解读 • 独立性检验方法介绍及应用场景分析 • 独立性检验结果解读与注意事项 • 独立性检验在统计学中地位和作用 • 高中数学选修课程中其他相关知识点回
顾与拓展
01
在实际应用中,还需要结合其他统计 方法和专业知识进行综合分析和判断 。
05
独立性检验在统计学中地位和作用
独立性检验在统计学中地位
独立性检验是统计学 中一种重要的假设检 验方法。
在数据分析、市场调 研、医学研究等领域 具有广泛应用。
它用于判断两个或多 个分类变量之间是否 相互独立。
独立性检验对后续统计分析影响
高中数学选修课程中其他相关知识点梳理
排列组合与二项式定理
回顾排列组合的基本概念、计算公式及应用,掌握二项式定理的展开式及通项公式的应 用。
概率与统计的综合应用
梳理概率与统计在高中数学选修课程中的综合应用,如概率与统计在解决实际问题中的 结合,以及概率与统计在其他数学知识点中的交叉应用等。
数学建模与数学探究
独立性检验的基本思想
通过抽样调查获取数据,根据样本数据来判断两个分类变量 是否独立。
独立性检验的方法
通常采用列联表的形式整理数据,然后计算相关统计量的值 (如χ²值),并根据统计量的值及给定的显著性水平作出判 断。
回归直线方程与独立性检验-讲义(学生版)
回归直线方程与独立性检验一、课堂目标1、明确建立回归模型的基本步骤、熟练运用线性回归模型解决非线性相关问题.2、能够运用独立性检验对两个分类变量是否线性相关作出判断.二、直击高考知识模块知识内容全国卷常见题型回归分析一元线性回归模型2020年全国三卷18题解答题回归直线方程独立性检验分类变量2020年全国二卷18题解答题三、知识讲解1. 回归分析知识回顾方法提升考点一:回归直线方程的求解对于一组具有线性相关关系的数据:,,,,,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中,,称为样本点的中心,位于回归直线上.【思想方法与技巧】利用线性相关回归分析处理非线性问题:研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,这两个变量之间不具有线性相关关系,也就是非线性相关关系.考点二:相关系数的求解对于变量与随机抽到的对数据,,,,,可以利用相关系数来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.【思想方法与技巧】利用相关系数评判结果如下:(1)时,表示两个变量正相关;(2)时,表示两个变量负相关;(3)越接近于,表明两个变量的线性相关程度越强;(4)越接近于,表明两个变量的线性相关程度越弱.高考链接1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单(1)(2)(3)位:公顷)和这种野生动物的数量,并计算得,,,,.附:相关系数,.求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数).求样本的相关系数(精确到).根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(1)(2)2.下图是某地区年至年环境基础设施投资额(单位:亿元)的折线图.为了预测该地区年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据年至年的数据(时间变量的值依次为)建立模型①:.根据年至年的数据(时间变量的值依次为)建立模型②:.年份投资额分别利用这两个模型,求该地区年的环境基础设施投资额的预测值.你认为用哪个模型得到的预测值更可靠?并说明理由.3.下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图(1)(2)年份代码年生活垃圾无害化处理量注:年份代码分别对应年亿吨参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明.建立关于的回归方程(系数精确到),预测年我国生活垃圾无害化处理量.方法应用4.随着互联网的兴起,越来越多的人选择网上购物.某购物平台为了吸引顾客提升销售额,每年双十一都会进行某种商品的促销活动,该商品促销活动规则如下:①“价由客定”,即所有参与该商品促销活动的人进行网络报价,每个人并不知晓其他人的报价也不知道参与该商品促销活动的总人数;②报价时间截止后,系统根据当年双十一该商品数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;③每人限购一件,且参与人员分配到名额时必须购买,某位顾客拟参加年双十一该商品促销活动,他为了预测该商品最低成交价,根据该购物平台的公告统计了最近年双十一参与该商品促销活动的人数(见表):年份年份编号参与人数(百万人)12(2)由收集数据的散点图发现,可用线性回归模拟拟合参与人数(百万人)与年份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年双十一参与该商品促销活动的人数.该购物平台调研部门对位拟参与年双十一该商品促销活动人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(千元)频数求这位参与人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替).假设所有参与该商品促销活动人员的报价可视为服从正态分布且与可分别由①中所求的样本平均值和样本方差估值,若预计年双十一该商品最终销售量为,请你合理预测(需说明理由)该商品的最低成交价.参考公式及数据()回归方程:,其中,.(),,.()若随机变量服从正态分布,则,,.5.我国全面二孩政策已于年月日起正式实施,国家统计局发布的数据显示,从年到年,中国的人口自然增长率变化始终不大,在上下波动(如图).中国内地总人口和自然增长率总人口自然增长率出生率(万人)为了了解年龄介于岁至岁之间的适孕夫妻对生育二孩的态度如何,统计部门按年龄分为组,每组选取对夫妻进行调查,统计有生育二孩意愿的夫妻数,得到下表:‰(1)(2)有意愿数(参考数据和公式:,,,,,)设每个年龄区间的中间值为 ,有意愿数为,求样本数据的线性回归直线方程,并求该模型的相关系数(结果保留两位小数).从,,,,这五个年龄段中各选出一对夫妻(能代表该年龄段超过半数夫妻的意愿)进一步调研,再从这对夫妻中任选对夫妻,设其中不愿意生育二孩的夫妻数为,求的分布列和数学期望.(1)(2)6.某小区为了调查居民的生活水平,随机从小区住户中抽取个家庭,得到数据如下:家庭编号月收入(千元)月支出(千元)参考公式:回归直线的方程是:,其中,,.据题中数据,求月支出(千元)关于月收入(千元)的线性回归方程(保留一位小数);从这个家庭中随机抽取个,记月支出超过千家庭个数为,求的分布列与数学期望.7.如表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号数学物理学号数学(1)(2)(3)理用这人的两科成绩制作如下散点图:物理数学学号为号的同学由于严重感冒导致物理考试发挥失常,学号为号的同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将、两同学的成绩(对应于图中、两点)剔除后,用剩下的个同学的数据作分析,计算得到下列统计指标:数学学科平均分为,标准差为,物理学科的平均分为,标准差为,数学成绩与物理成绩的相关系数为,回归直线(如图所示)的方程为.若不剔除、两同学的数据,用全部的成绩作回归分析,设数学成绩与物理成绩的相关系数为,回归直线为,试分析与的大小关系,并在图中画出回归直线的大致位置.如果同学参加了这次物理考试,估计同学的物理分数(精确到个位).就这次考试而言,学号为号的同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平可按公式统一化成标准分再进行比较,其中为学科原始分,为学科平均分,为学科标准差).(1)(2)8.已知某校个学生的数学和物理成绩如下表:学生的编号数学物理若在本次考试中,规定数学在分以上(包括分)且物理在分以上(包括分)的学生为理科小能手.从这个学生中抽出个学生,设表示理科小能手的人数,求的分布列和数学期望.通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用表示数学成绩,用表示物理成绩,求与的回归方程.参考公式:,其中,.(1)(2)某调查机构为了了解某产品年产量(吨)对价格(千元/吨)和利润的影响,对近五年该产品的年产量和价格统计如下表:求关于的线性回归方程若每吨该产品的成本为千元,假设该产品可全部卖出,预测当年产量为多少时,年利润取到最大值?参考公式:,.(1)(2)10.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间进行分析研究,他们分别记录了月日至月日的每天昼夜温差与实验室每天每棵种子中的发芽数,得到如下资料:日期月日月日月日月日月日温差摄氏度发芽颗该农科所确定的研究方案是:先从这组数据中选取组数据求线性回归方程,再用剩下的组数据进行检验.若选取的组数据恰好是连续天的数据(表示数据来自互不相邻的三天),求的分布列及期望.根据月日至日数据,求出发芽数关于温差的线性回归方程.由所求得线性回归方程得到的估计数据与剩下的检验数据的误差均不超过颗,则认为得到的线性回归方程是可靠的,试问所得的线性回归方程是否可靠?附:参考公式:,.(1)11.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精(2)若莫斯科某个餐厅打算从上表的种等级的中国小龙虾中随机选种进行促销,记被选中的种等级代码数值在以下(不含)的数量为,求的分布列及数学期望.参考公式:对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.(1)(2)12.某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司年至年的年利润关于年份代号的统计数据如下表(已知该公司的年利润与年份代号线性相关):年份年份代号年利润(单位:亿元)求关于的线性回归方程,并预测该公司年(年份代号记为)的年利润.当统计表中某年年利润的实际值大于由()中线性回归方程计算出该年利润的估计值时,称该年为级利润年,否则称为级利润年.将()中预测的该公司年的年利润视作该年利润的实际值,现从年至年这年中随机抽取年,求恰有年为级利润年的概率.参考公式:,.2. 独立性检验知识回顾方法提升考点:独立性检验求解步骤(1)准确作出列联表;(2)统计假设成立;(3)计算;(4)将上一步计算得到的观测值与临界值比较,从而接收或拒绝假设.【思想方法与技巧】1、在列联表中,越小,说明两个分类变量之间关系越弱;越大,说明两个分类变量之间关系越强.2、(1)制作列联表时要注意表中相关数据的位置及对应,避免出错;(2)作的列联表的独立性检验时,要求表中的个数据都要大于,因此,在选取样本容量时一定要注意.高考链接13.某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)(2)(3)锻炼人次空气质量等级(优)(良)(轻度污染)(中度污染)分别估计该市一天的空气质量等级为,,,的概率.求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).若某天的空气质量等级为或,则称这天“空气质量好”;若某天的空气质量等级为或,则称这天“空气质量不好”.根据所给数据,完成下面的列联表;并根据列联表,判断是否有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次人次空气质量好空气质量不好附:.第一种生产方式第二种生产方式14.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取名工人,将他们随机分成两组,每组人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)绘制了如下茎叶图:(1)(2)(3)根据茎叶图判断哪种生产方式的效率更高?并说明理由.求名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式根据()中的列联表,能否有的把握认为两种生产方式的效率有差异?附:,(1)(2)(3)15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取个网箱,测量各箱水产品的产量(单位:),其频率直方图如下:频率组距箱产量旧养殖法频率组距箱产量新养殖法附:.设两种养殖方法的箱产量相互独立,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率.填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关.箱产量箱产量旧养殖法新养殖法根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到).方法应用(1)(2)(3)16.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区名患者的相关信息,得到如下表格:潜伏期(单位:天)人数求这名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表).该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天潜伏期天总计岁以上(含岁)岁以下总计附:,其中.以这名患者的潜伏期超过天的频率,代替该地区名患者潜伏期超过天发生的概率,每名患者的潜伏期是否超过天相互独立.为了深入研究,该研究团队随机调查了名患者,其中潜伏期超过天的人数最有可能(即概率最大)是多少?17.为了提高生产效益,某企业引进了一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取件产品进行质量检测,所有产品质量指标值均在以内,规定质量指标值大于的产品为优质品,质量指标值在的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标值如频数分布表所示.(1)(2)(3)频率组距质量指标值质量指标值频数合计请分别估计新、旧设备所生产的产品的优质品率.优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有的把握认为“产品质量高与新设备有关”.非优质品优质品合计新设备产品旧设备产品合计附:,其中.用频率代替概率,从新设备所生产的产品中随机抽取件产品,其中优质品数为件,求的分布列及数学期望.18.冬天的北方室外温度极低,若轻薄保暖的石墨烯发热膜能用在衣服上,可爱的医务工作者行动会更方便,石墨烯发热膜的制作:从石墨中分离出石墨烯,制成石墨烯发热膜,从石墨分离石墨烯的一(1)(2)种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶,现在有材料,材料供选择,研究人员对附着在材料,材料上再结晶各做了次试验,得到如下等高条形图.材料试验结果材料试验结果石墨烯再结晶试验试验成功试验失败根据上面的等高条形图,填写如下列联表,判断是否有的把握认为试验成功与材料有关.材料材料合计成功不成功合计研究人员得到石墨烯后,再制作石墨烯发热膜有三个环节:①透明基底及胶层,②石墨烯层,③表面封装层,第一,二环节生产合格的概率均为,第三个环节生产合格的概率为,且各生产环节相互独立,已知生产吨的石墨烯发热膜的固定成本为万元,若生产不合格还需进行修复,第三个环节的修复费用为元,其余环节修复费用均为元.如何定价,才能实现每生产吨石墨烯发热膜获利可达万元以上的目标.附:参考公式:,其中.19.由团中央学校部、全国学联秘书处、中国青年报社共同举办的年度全国“最美中学生”寻访活动结果出炉啦,此项活动于年月启动,面向全国中学在校学生,通过投票方式寻访一批在热爱祖国、勤奋学习、热心助人、见义勇为等方面表现突出、自觉树立和践行社会主义核心价值观的“最美中学生”.现随机抽取了名学生的票数,绘成如图所示的茎叶图,若规定票数在票以上(包括票)定义为风华组.票数在票以下(不包括票)的学生定义为青春组.(1)(2)(3)在这名学生中,青春组学生中有男生人,风华组学生中有女生人,试问有没有的把握认为票数分在青春组或风华组与性别有关.如果用分层抽样的方法从青春组和风华组中抽取人,再从这人中随机抽取人,那么至少有人在青春组的概率是多少?用样本估计总体,把频率作为概率,若从该地区所有的中学(人数很多)中随机选取人,用表示所选人中青春组的人数,试写出的分布列,并求出的数学期望.附:;其中,独立性检验临界表:(1)(2)(3)20.为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行宣传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,这为正式普查提供了宝贵的试点经验.在某普查小区,共有家企事业单位,家个体经营户,普查情况如下表所示:普查对象类型顺利不顺利合计企事业单位个体经营户合计写出选择个国家综合试点地区采用的抽样方法.根据列联表判断是否有的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.以频率作为概率,某普查小组从该小区随机选择家企事业单位,家个体经营户作为普查对象,入户登记顺利的对象数记为,写出的分布列,并求的期望值.附:.(1)(2)(3)21.黄冈市有很多名优土特产,黄冈市的蕲春县就有闻名于世的“蕲春四宝”(蕲竹、蕲艾、蕲蛇、蕲龟),很多人慕名而来旅游,通过随机询问名不同性别的游客在购买“蕲春四宝”时是否在来蕲春县之前就知道“蕲春四宝”,得到如下列联表:男女总计事先知道“蕲春四宝”事先不知道“蕲春四宝”总计附:.写出列联表中各字母代表的数字.由以上列联表判断,能否在犯错误的概率不超过的前提下认为购买“蕲春四宝”和是否“事先知道’蕲春四宝’有关系”?从被询问的名事先知道“蕲春四宝”的顾客中随机选取名顾客,求抽到的女顾客人数的分布列及其数学期望.(1)22.在一次爱心捐款活动中,小李为了了解捐款数额是否和居民自身的经济收入有关,随机调查了某地区的个捐款居民每月平均的经济收入.在捐款超过元的居民中,每月平均的经济收入没有达到元的有个,达到元的有个;在捐款不超过元的居民中,每月平均的经济收入没有达到元的有个.参考数据当时,无充分证据判定变量,有关联,可以认为两变量无关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联.附:,其中.在下图表格空白处填写正确数字,并说明是否有以上的把握认为捐款数额是否超过元和居民每月平均的经济收入是否达到元有关?每月平均经济收入达到元每月平均经济收入没有达到元合计捐款超过元 捐款不超过元(2)合计将上述调查所得到的频率视为概率.现在从该地区大量居民中,采用随机抽样方法每次抽取个居民,共抽取次,记被抽取的个居民中经济收入达到元的人数为,求和期望的值.(1)(2)23.2016年月日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在岁之间的人进行调查,某机构随机抽取了在之间的人进行调查,经统计“青少年”与“中老年”的人数之比为.根据已知条件完成下面的列联表,并判断能否有的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.关注不关注合计青少年中老年合计现从抽取的青少年中采取分层抽样的办法选取人进行问卷调查,在这人中再选取人进行面对面询问,记选取的人中关注“国际教育信息化大会”的人数为,求的分布列及数学期望.附:参考公式:,其中.临界值表:(1)(2)24.为了研究家用轿车在高速公路上的车速情况,交通部门对名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在名男性驾驶员中,平均车速超过的有人,不超过的有人.在名女性驾驶员中,平均车速超过的有人,不超过的有人.完成下面的列联表,并判断是否有的把握认为平均车速超过的人与性别有关.平均车速超过人数平均车速不超过人数合计男性驾驶员人数 女性驾驶员人数合计以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取辆,记这辆车中驾驶员为男性且车速超过的车辆数为,若每次抽取的结果是相互独立的,求的分布列和数学期望.参考公式与数据:,其中,对服务满意对服务不满意合计对商品满意 对商品不满意合计(1)(2)25.近年来,我国电子商务蓬勃发展.年“”期间,某网购平台的销售业绩高达亿元人民币,与此同时,相关管理部门推出了针对该网购平台的商品和服务的评价系统.从该评价系统中选出次成功交易,并对其评价进行统计,网购者对商品的满意率为,对服务的满意率为,其中对商品和服务都满意的交易为次.根据已知条件完成下面的列联表,并回答能否有的把握认为“网购者对商品满意与对服务满意之间有关系”?若将频率视为概率,某人在该网购平台上进行的次购物中,设对商品和服务都满意的次数为随机变量,求的分布列和数学期望.附:(其中为样本容量)26.万众瞩目的第届全国冬季运动运会(简称“十四冬”)于年月日在呼伦贝尔市盛大开幕,期间正值我市学校放寒假,寒假结束后,某校工会对全校名教职工在“十四冬”期间每天收看比赛转播的时间作了一次调查,得到如图频数分布直方图:。
〔高中数学〕独立性检验PPT课件5
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间没有关系 ←→ H1: 吸烟和患
肺癌之间有关系
结论的可靠
用 A 表示“不吸烟”, B 表示程“度不如患何肺?癌”
则等价于H0:“吸吸烟烟”和与患“肺患癌肺之癌间”没独有立关,系即A与B独立
等价于 P(AB)=P(A)P(B)
吸烟与肺癌列联表
例:一袋中有2个白球,2个黑球,做一次不 放回抽样试验,从袋中连取2个球,观察球的 颜色情况,记“第一个取出的是白球”为事件A ,“第二个取出的是白球”为事件B,试问A与B 是不是相互独立事件?
答:不是,因为件A发生时(即第一个取到白球),事件B的 概率P(B)=1/3,而当事件A不发生时(即第一个取到的是 黑球),事件B发生的概率P(B)=2/3,也就是说,事件A发 生与否影响到事件B发生的概率,所以A与B不是相互独立事 件。
解:联列表数据如下:
可得:2 15.0216.635,所以有99%以上的把握 认为青年的性别与是否喜爱古典音乐有关。
例3 容易生气的人更有可能患心脏病么?某机 构随机调查了2796人,得到以下数据:
试问:容易生气的人是否更有可能患心脏病?
可算得卡方统计量 2 5.805
例4.生物学上对于人类头发的颜色与眼睛虹膜的 颜色是否有关进行了调研,某机构调查了212人, 调查记录如下:
=AB包含的样本点数 B包含的样本点数
= A B 包 含 的 样 本 点 数 /总 数 = P ( A B ) B 包 含 的 样 本 点 数 /总 数 P ( B )
例 盒中有球如表. 任取一球
红 蓝
总计
玻璃
2 4 6
木质
3 7 10
独立性检验(课件)高二数学(人教A版2019选修第三册)
|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.
中学数学统计.板块五.独立性检验.学生版
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+,当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.典例分析【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:()()2211221221212120.050.013.841p k n n n n n n n n n k χχ++++- = 6.635≥,。
新教材高中数学第五章统计与概率3.5随机事件的独立性课件新人教B版必修第二册 课件(共13张PPT)
问题 1.如果乙要连胜四局,比赛应如何进行? 提示:若要乙连胜四局,则对阵情况是第一局:甲对乙,乙胜;第二局:乙对丙,乙胜;第 三局:乙对甲,乙胜;第四局:乙对丙,乙胜. 2.要求出乙连胜四局时的概率需要用到哪些概率知识?如何求? 提示:应用事件的独立性知识,按照每局乙胜的情况分析,所求概率为P=(1-0.4)2×0. 52=0.32=0.09.
求复杂事件的概率一般可分三步进行: (1)列出题中涉及的各个事件,并用适当的符号表示它们; (2)理清各事件之间的关系,用事件间的“并”“交”恰当地表示所求事件; (3)根据事件之间的关系准确地运用概率公式进行计算. 注意:当直接计算符合条件的事件的概率较复杂时,可先间接地计算其对立事件 的概率,再求出符合条件的事件的概率.
∩F)+P( D∩E∩F)=0.6×0.5×0.5+0.6×0.5×0.5+0.6×0.5×0.5+0.4×0.5×0.5=0.55. 解法二:“红队中至少有两名队员获胜”与“红队中最多有一名队员获胜”为对 立事件,而红队都不获胜的事件为 D∩ E ∩ F ,且P( D∩ E ∩ F )=0.4×0.5×0.5=0.1. 则红队中至少有两名队员获胜的概率P2=1-P1-P( D∩ E ∩ F )=1-0.35-0.1=0.55. 方法总结 处理事件的独立性问题主要用直接法和间接法.当遇到“至少”“至 多”问题时可以考虑间接法.
解析 设甲胜A为事件D,乙胜B为事件E,丙胜C为事件F,则 D, E , F 分别表示A胜 甲、B胜乙、C胜丙. 因为P(D)=0.6,P(E)=0.5,P(F)=0.5, 所以由对立事件的概率公式知P( D)=0.4,P( E )=0.5,P( F )=0.5. (1)红队中有且只有一名队员获胜的事件有D∩ E ∩ F , D∩E∩ F , D∩ E ∩F,以上 3个事件彼此互斥且相互独立. 所以红队中有且只有一名队员获胜的概率P1=P[(D∩ E ∩ F )∪( D∩E∩ F )∪( D ∩ E ∩F)]=P(D∩ E ∩ F )+P( D∩E∩ F )+P( D∩ E ∩F)=0.6×0.5×0.5+0.4×0.5×0.5+ 0.4×0.5×0.5=0.35. (2)解法一:红队中至少有两名队员获胜的事件有D∩E∩F,D∩E∩ F ,D∩ E ∩F, D ∩E∩F,由于以上四个事件两两互斥且各盘比赛的结果相互独立, 因此红队中至少有两名队员获胜的概率P2=P(D∩E∩F)+P(D∩E∩ F )+P(D∩ E
独立性检验(课件)高二数学(苏教版2019选择性必修第二册)
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
2、根据抽样数据整理出2 x 2列联表,计算 2的值,并与临界值xα比较;
3、根据检验规则得出推断结论;
4、在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间
的影响规律。
探究新知
题型1
有关“相关的检验”
某校对学生课外活动进行调查 ,结果整理成下表:用你所学过的知
识进行分析,能否在犯错误的概率不超过 0.005的前提下,认为“喜欢体育还
当样本容量n充分大时,得到 2的近似分布,忽略 2的实际分布与该近似分
布的误差,对于任何小概率值α,可以找到相应的正实数xα,使得
P( 2≥xα)=α成立,称xα为α的临界值,该临界值作为判断 2大小的标准。概率
值α越小,临界值xα越大。
探究新知
基于小概率值α的检验规则:
统计.板块五.独立性检验.教师版 普通高中数学复习讲义Word版
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整除,设Nkn=,先对总体进行编号,号码从1到N,再从数字1到k中随机抽取一个数s作为起始数,然后顺次抽取第2(1)s k s k s n k+++-,,,个数,这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.⑵简单随机样本数n小于等于样本总体的个数N.⑶简单随机样本是从总体中逐个抽取的.⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取Nkn =;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容知识内容板块五.独立性检验量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为Nn.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+,当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点.记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】无典例分析【答案】B ;【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【考点】独立性检验 【难度】1星 【题型】填空 【关键词】无 【解析】略【答案】95%;【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】B ;【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【考点】独立性检验 【难度】1星 【题型】选择 【关键词】无 【解析】略【答案】A ;【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【考点】独立性检验 【难度】1星 【题型】选择【关键词】无【解析】略【答案】A;【例6】某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【考点】独立性检验【难度】1星【题型】解答【关键词】无【解析】因为2 3.841χ≥,所以出错的可能性为5%.【答案】5%;【例7】某班主任对全班50名学生进行了作业量的调查,数据如下表:A.99% B.95% C.90% D.无充分根据【考点】独立性检验【难度】2星【题型】选择【关键词】无【解析】2250(151889)5.0585 3.84127232624χ⨯-⨯=≈⨯⨯⨯≥【答案】B;【例8】下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【考点】独立性检验【难度】2星【题型】解答 【关键词】无 【解析】略【答案】提出假设0H :该周内中学生是否喝过酒与性别无关.由列联表中的数据,算出2 1.6366χ≈,当0H 成立时,2 3.841χ≥的概率约为0.05,而这里2 1.6366 3.841χ≈<, 所以,不能推断出喝酒与性别有关的结论.【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】根据题意,列出列联表如下:根据公式,2290(2526318) 4.24356343357χ⨯-⨯=≈⨯⨯⨯,因为4.243 3.841>,所以我们有95%的把握认为在这次航程中晕机与性别有关,即男人比女人更容易晕机.【例10】 为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,算出22193(58314064) 1.3896122719895χ⨯⨯-⨯=≈⨯⨯⨯,查表有2( 2.072)0.15P χ=≥.当0H 成立时,2 1.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论. 点评:如果观测值2 2.706χ≤,那么就认为没有充分的证据显示两个分类变量有关系,但也不能作出结论“0H 成立”,即两个变量没有关系.【例11】 考察棉花种子经过处理跟生病之间的关系得到如下表数据:【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】统计假设:种子经过处理跟是否生病无关.由列表数据,计算22407(3221361101)0.1641 2.70693314133274χ⨯-⨯=≈<⨯⨯⨯因此基本上认为种子经过处理跟是否生病无关.【例12】 气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】由列联表中的数据可知,服用复方江剪刀草的患者的有效率为18475%245≈, 服用胆黄片的患者的有效率为9191%100=,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有效率存在较大差异.下面用2χ进行独立性检验,以确定能有多大把握作出这一推断.提出假设0H :两种中草药的治疗效果没有差异.由列联表中的数据,求得22345(18496191)11.09827570245100χ⨯⨯-⨯=≈⨯⨯⨯.当0H 成立时,210.828χ≥的概率约为0.001,而这里211.09810.828χ≈>.所以我们有99.9%的把握认为:两种药物的疗效有差异.【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系. 【考点】独立性检验 【难度】2星 【题型】解答 【关键词】无 【解析】略【答案】⑴22⨯联表为:⑵ 假设”休闲方式与性别无关”,计算226.201 3.84170546460χ=≈>⨯⨯⨯,所以有理由认为假设”休闲方式与性别无关”是不合理的,有95%的把握认为”休闲方式与性别有关”.【例14】 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++ 【考点】独立性检验 【难度】3星 【题型】解答【关键词】2010年,全国高考 【解析】略【答案】⑴调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为7014%500= ⑵22500(4027030160)9.96720030070430K ⨯⨯-⨯==⨯⨯⨯.由于9.967 6.635>,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.⑶由⑵的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.【例15】某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【考点】独立性检验【难度】3星【题型】解答【关键词】无【解析】略【答案】列出数学与物理优秀的22⨯列联表如下χ≈.由公式计算可得:2270.1143列出数学与化学优秀的列联表如下χ≈.由公式计算可得:2240.6112列出数学与总分优秀的列联表如下由公式计算可得:22486.1225χ≈.综上可知,数学成绩优秀则最大可能总分也优秀,即数学成绩优秀与总分也优秀关系较大.【例16】 为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率组距疱疹面积频率组距疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d=++++【考点】独立性检验 【难度】4星 【题型】解答【关键词】2010年,辽宁高考 【解析】略【答案】⑴甲、乙两只家兔分在不同组的概率为991981002002C 100C 199P ==.⑵(i)疱疹面积频率组距疱疹面积图1注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位数. (ii )表3224.5610010010595K =≈⨯⨯⨯由于210.828K >,所以99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.【例17】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生附:()()2211221221212120.050.013.841p k n n n n n n n n n k χχ++++- =6.635≥,【考点】独立性检验 【难度】3星 【题型】解答【关键词】2009年,辽宁高考 【解析】略【答案】⑴甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为36072%500=; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为32064%500=. ⑵21000360180320140500500680320χ⨯⨯-⨯=⨯⨯⨯7.35 6.635≈>,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.。
2020-2021学年高二下学期数学人教B版选修1-2第一章1.1独立性检验+说课课件
五.课后反思
我想主要原因还是在于脱离了假设检验的理论知识,而独立性检验作为假设检验的一种特例单独拿出来学习就会感觉缺少许多理论支持.如何能让学生在高中的知识背景下了解独立性检验的思想,我想需要教师自己对于假设检验的思想有一个正确的理解,并且能够结合教材,正确的传达给学生.作为一名青年教师,自己一定要努力提高自己的专业素养,同时研读教材,做一名关注学生思维发展的数学教师.
一.教学内容解析
一.教学内容解析
独立性检验是考察两个变量是否独立的统计学方法,具体做法是:首先对两个变量的关系作假设,然后选取合适的统计量,并根据实测样本计算出该统计量的观测值,最后根据预先设定的显著性水平进行检验,做出接受或拒绝原假设的判断,其本质就是运用假设检验原理的一种特例.在现有的有关独立性检验(大学)教材看,都是先介绍假设检验知识,然后介绍独立性检验,即通过假设检验的原理来理解独立性检验的思想. (2)教学重点:通过典型案例的探究体会独立性检验的思想方法.
三.学生学情分析:
考虑到文科学生的知识储备及课标的要求,本节课尽量用生活中的实际例子去引导学生,让学生感受到卡方统计量构造的必要性及独立性检验思想的重要性。 (2)教学难点:独立性检验的思想。
三.学生学情分析:
小概率事件的发生?
四.教学过程
通过自习课被老师发现说话这种常见现象引题,然后通过分析学生教师的通常表现来实现以下两个目的:1.引起学生兴趣,同时初步了解对于“反证法”的思想。 2.了解小概率事件发生的可能性与否定假设把握程度之间的关系,即为独立性检验结果的概率统计含义的理解做铺垫。
高中课程标准中,要求通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用,课时安排为三课时.在高考中基本以考察操作规则,套用卡方公式进行计算为主,根据以往经验,应用公式对于学生来说较为简单,所以作为本节课的第一课时教学目标设置如下: (1)知识与技能:解两个事件相互独立的含义,通过对典型案例的探究,理清不同的样本,数据不同,比例不同,数据所体现的差异性不同,怎样针对不同样本数据设置统一的评判标准?
独立性检验-高二数学课件(人教A版2019选择性必修第三册)
考虑以Ω为样本空间的古典概型,设X和Y 为定义在Ω
上,取值于{0, 1}的成对分类变量 . 我们希望判断事件{X=1}
和{Y=1}之间是否有关联 .
注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,
与前面的讨论类似,我们需要判断下面的假定关系
根据列联表中的数据,经计算得到
例4 依据小概率值α=0.001的独立性检验, 分析吸烟是
否会增加患肺癌的风险.
解:零假设为H0:
吸烟和患肺癌之间没
有关联.
根据列联表中的数据,经计算得到
2
9965 (7775 49 - 42 2099)
2
χ
56.632 10.828 = x0.001 .
生的数学成绩优秀率无差异.
因为
根据上表中的数据,计算得到
2
88 (33 7 -10 38)
2
χ =
0.837 < 2.706 = x0.1 .
43 45 71 17
根据小概率值=0.1的 χ2 独立性检验,没有充分证据
推断H0不成立,因此可以认为H0成立,即认为两校的数学
H0: P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
这里,P(Y=1| X=0)表示从{X=0} 中随机选取一个样本
点,该样本点属于{X=0 , Y=1}的概率; P(Y=1|X=1)表示从
{X=1}中随机选取一个样本点,该样本点属于{X=1, Y=1}的
概率.
由条件概率的定义可知,零假设
忽略 χ2的实际分布与该近似分布的误差后,对于任何
小概率值α, 可以找到相应的正实数xα,使得下面关系成立:
成都市2022届高二下期新课讲义(一)《独立性检验》新课讲义
成都市2022届高二下期新课讲义(一)《独立性检验》新课讲义1.分类变量和列联表(1)分类变量: 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表①定义:列出的两个分类变量的频数表,称为列联表.②2×2列联表:一般地,假设两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为想一想:如何理解分类变量?提示 (1)这里的“变量”和“值”都应作为“广义”的变量和值来理解.例如:对于性别变量,其取值有“男”和“女”两种,这里的“变量”指的是“性别”,这里的“值”指的是“男”或“女”.因此,这里说的“变量”和“值”不一定是取具体的数值.(2)分类变量是大量存在的.例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别. 2.独立性检验定义 利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d具体 步骤①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α.然后查表确定临界值k 0②利用公式计算随机变量K 2的观测值k ③如果k ≥k 0,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”3.独立性检验临界值表P (K 2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828想一想:在K 2运算时,在判断变量相关时,若K 2的观测值k =56.632,则P (K 2≥6.635)≈0.01和P (K 2≥10.828)≈0.001,哪种说法是正确的? 提示 两种说法均正确.P (K 2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关; 而P (K 2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.注意:1. 在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0,因此|ad -bc |越小,关系越弱; |ad -bc |越大,关系越强. 2.2K 与k 的关系并不是2,k K k =是K 的观测值,或者说2K 是一个随机变量,它在,,,a b c d 取不同的值时, y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d2K 可能不同,而k 是取定一组数,,,a b c d 后的—个确定的值.规律方法 运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k .(2)比较k 与k 0的大小作出结论.【例1】 某校对学生课外活动进行调查,结果整理成下表:试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?例2.(14辽宁)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品 不喜欢甜品 合计南方学生60 20 80 北方学生10 10 20 合计70 30 100 根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),例3.(14江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1 表2成绩性别不及格 及格 总计男6 14 20 女10 22 32 总计16 36 52表3 表4 智商性别偏高 正常 总计男8 12 20 女8 24 32 总计16 36 52 体育 文娱 总计 男生 21 23 44 女生 6 29 35 总计275279P (χ2≥k ) 0.100 0.050 0.010 k 2.706 3.841 6.635视力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52A .成绩B .视力C .智商D .阅读量2(2017新课标Ⅱ理)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg ).其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,22()()()()()n ad bc K a b c d a c b d -=++++阅读量 性别丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计16365217、[14安徽] 某高校共有学生15 000人,其中男生10 500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图1-4所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.图1-4(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)图1-1变式1.近几年出现各种食品问题,食品添加剂会引起血脂增高、血压增高、血糖增高等疾病.为了解三高疾病是否与性别有关,医院随机对入院的60人进行了问卷调查,得到了如下的列联表:(1)请将如图的列联表补充完整;若用分层抽样的方法在患三高疾病的人群中抽9人,其中女性抽多少人?(2)为了研究三高疾病是否与性别有关,请计算出统计量2K,并说明你有多大的把握认为三高疾病与性别有关?下面的临界值表供参考:(参考公式22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)患三高疾病不患三高疾病合计男 6 30女合计36)(2kKP≥0.010 0.005 0.0012.2016年9月20日是第28个全国爱牙日。
高中数学课件-独立性检验(新课)
现在的K2≈56.632的观测值远大于6.635,小概率
事件的发生说明假设H0不成立!
所以吸烟和患肺癌有关!
1.对分类变量X与Y的随机变量K2的观测值k,说法正确 的是( B )
A.k越大,“ X与Y有关系”可信程度越小 B.k越小,“ X与Y有关系”可信程度越小 C.k越接近于0,“X与Y无关”程度越小 D.k越大,“X与Y无关”程度越大
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
0.54%
不吸烟
等高条 形图
0.54%
患肺癌 不患肺癌
吸烟
(1)反映分类变量的频率(百分比)
(2)直观判断两个分类变量是否相关 差异性越大,越有关联
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量有关系” 的标准 。
若H0(吸烟和患肺癌没有关系)成立,则K2应该很小.
独立性检验
H0:假设吸烟和患肺癌没有关系
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟
2099
49
2148
总计
所以根据列联表的数据,可以有 97.5 %的把握认为该学校15至16周 岁的男生的身高和体重之间有关系。
1.(2013·深圳二模)2013年3月14
CCTV 财经
频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.
为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大
学实验室随机抽取了60个样本,得到了相关数据如下表:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学而思高中完整讲义:统计.板块四.统计数据的数字特征.学生版一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同.随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N的总体中抽取容量为n的样本,如果总体容量能被样本容量整除,设Nkn=,先对总体进行编号,号码从1到N,再从数字1到k中随机抽取一个数s作为起始数,然后顺次抽取第2(1)s k s k s n k+++-,,,个数,这样就得到容量为n的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N是有限的.⑵简单随机样本数n小于等于样本总体的个数N.⑶简单随机样本是从总体中逐个抽取的.⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N恰好是样本容量n的整数倍时,取Nkn =;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍然相等,为Nn.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;知识内容②决定组距与组数:取组距,用极差组距决定组数; ③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据111221224个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析. ②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n--=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%典例分析【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】 为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率组距疱疹面积频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2()K ()()()()n ad bc a b c d a c b d -=++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:()()2211221221212120.050.013.841p k n n n n n n n n n k χχ++++- = 6.635≥,。