重点高中选修12回归分析和独立性检验知识总结与联系
考点5,回归分析与独立性检验
考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。
◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。
◆了解回归分析的基本思想、方法及其简单应用。
命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。
◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。
第3讲变量间的相关关系、回归分析及独立性检验
1.两个变量的线性相关
(1)在散点图中,点散布在从左下角 到 右上角 的区域.对于两个
变量的这种相关关系,我们将它称为正相关.如果在散点图
中,点散布在从左上角 到右下角 的区域,两个变量的这种相关 关系称为负相关.
(2)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在 一条直线附近 个变量之间具有线性相关关系,这条直线叫做回归直线. ,就称这两
思维点拨:利用相关系数r进行线性相关检验(也可利用散点图).如果线性相 关,再求回归直线方程并加以判断.
因为r>0.5,所以y与x有很强的线性相关关系. (2) =0.728 6x-0.857 1. ≤10⇒0.728 6x-0.857 1≤10,
(3)要使
所以x≤14.901 3.
所以机器的转速应控制在14.901 3转/秒以下.
它在a,b,c,d 取不同值时,K2可能不同,而k是取定一组数a, b,c,d后的一个确定的值.
1.下列关系中,是相关关系的为(
)
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A.①② B.①③ C.②③ D.②④
判断两个变量正相关还是负相关,有三种方法: 1.利用散点图;
2.利用相关系数r的符号;当r>0时,正相关;r<0时,负相关;
3.在已知两变量线性相关时,也可以利用回归方程 =a+bx是增函数,两变量是正相关, 当b<0时, =a+bx是减函数, 两变量是负相关. =a+bx.当b>0时,
【例 1】 山东鲁洁棉业公司的科研人员在 7块并排、形状大小相同的试
=1.23×10+0.08=12.3+0.08=12.38(万元),即估计使用10
高中数学 第2讲变量的相关性、回归分析及独立性检验
第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。
回归方程和独立性检验知识点
回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
高二数学回归分析与独立性检验
3.1回归分析的基本思想及其初步应用例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5 ∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -b ˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.3.某企业上半年产品产量与单位成本资料如下:月份 产量(千件)单位成本(元)1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6568(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=61i ix=21,∑=61i iy=426,x =3.5,y =71,∑=612i i x =79,∑=61i ii yx =1 481,bˆ=26126166x x yx yx i i i ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y -b ˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程: yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.12.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)画出散点图; (2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 x i 2 4 5 6 8 y i 30 40 60 50 70 x i y i60160300300560因此,x =525=5, y =5250=50,∑=512i i x =145,∑=512i i y =13 500,∑=51i i iy x=1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5; a ˆ=y -b ˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.3.2独立性检验的基本思想及其初步应用例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:患慢性气管炎未患慢性气管炎总计 吸烟 43 162 205 不吸烟 13 121 134 合计56283339试问:(1)吸烟习惯与患慢性气管炎是否有关?(2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到 χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分=13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分 (2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%. 14分12.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效? 解 根据题目所给的数据作出如下的列联表:色盲 不色盲 合计 男 38 442 480 女 6 514 520 合计449561 000根据列联表作出相应的二维条形图:从二维条形图来看,在男人中患色盲的比例为48038,要比女人中患色盲的比例5206大. 其差值为520648038-≈0.068,差值较大. 因而,我们可以认为“患色盲与性别是有关的”. 根据列联表所给的数据可以有a =38,b =442,c =6,d =514,a +b =480,c +d =520, a +c =44,b +d =956,n =1 000, 由2χ=))()()(()(2d b c a d c b a bc ad n ++++-=95644520480)442651438(00012⨯⨯⨯⨯-⨯⨯≈27.1.由27.1>10.828,所以我们有99.9%的把握认为患色盲与性别有关系,这个结论只对所调查的480名男人和520名女人有效.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (2χ≥3.841)≈0.05,P (2χ≥5.024)≈0.025.根据表中数据,得到2χ=30202723)7102013(502⨯⨯⨯⨯-⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案 5%。
方法技巧专题25回归分析与独立性检验
方法技巧专题25回归分析与独立性检验回归分析与独立性检验是统计学中常用的两种方法技巧。
本文将从基本概念、执行步骤、解析方法和实际应用等方面详细介绍回归分析与独立性检验。
一、回归分析回归分析是一种用来描述和解释变量之间相互关系的统计方法。
在回归分析中,一个或多个自变量被用来预测或解释一个或多个因变量。
基本概念包括以下几点:1. 自变量(independent variable):研究者控制和操作的变量,用来预测因变量。
2. 因变量(dependent variable):研究者感兴趣的变量,也是我们希望预测或解释的变量。
3. 简单线性回归(simple linear regression):只有一个自变量和一个因变量之间的关系。
4. 多元回归(multiple regression):有两个或两个以上自变量和一个因变量之间的关系。
执行步骤如下:1.收集数据:收集自变量和因变量的数据。
2.绘制散点图:绘制自变量和因变量之间的散点图,观察两个变量之间的关系。
3.拟合回归线:通过回归线拟合数据,找到自变量和因变量之间的最佳关系。
4.计算回归方程:根据回归线的拟合情况,计算出回归方程,用来预测或解释因变量。
常用解析方法有以下几种:1.最小二乘法:通过最小化实际观测值与回归方程预测值之间的误差平方和,来确定回归方程的参数。
2. 相关系数(correlation coefficient):用来衡量自变量和因变量之间的线性相关性强弱,常用Pearson相关系数进行计算。
3.回归方程显著性检验:用来判断回归方程是否显著,即自变量是否对因变量有显著影响。
二、独立性检验独立性检验是用来检验两个或多个分类变量之间是否存在相关性的统计方法。
基本概念包括以下几点:1. 分类变量(categorical variable):变量的取值只能是一些有限的标称级别,而不能用具体的数值表示。
2. 单变量独立性检验(univariate independence test):只包括一个分类变量和一个因变量的关系。
相关性、最小二乘估计、回归分析与独立性检验
【例1】关于人体的脂肪含量(百分比)和年龄关系的研究中, 得到如下一组数据:
年龄 23 27 39 41 45 49 50 51 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 含量 判断它们是否有相关关系.
【解题指南】判断有无相关关系,一种常用的简便方法就是绘 制散点图. 【规范解答】本题涉及两个变量:年龄与脂肪含量,可以以年 龄为自变量,考查脂肪含量的变化趋势,分析相关关系通常借 助散点图.
高(x) 60
62 64 65
66 67
68
70 72 74
儿子身 63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 高(y)
①画出散点图,说明变量y与x的相关性;
②如果y与x之间具有线性相关关系,求线性回归方程.
(已知:
2
x=66.8,y=67.01,x
【即时应用】
(1)由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回 归直线方程y=a+bx,判断下面说法是否正确.(请在括号内打
“√”或“×”)
①任何一组观测值都能得到具有代表意义的回归直线方程;
()
②直线y=a+bx至少经过点(x1,y1),(x2,y2),…,(xn,yn)
(2)x与y的增长速度之比即约为回归方程的斜率的倒数
1 10 5 . 4.4 44 22
答案:(1)①× ②× ③√ ④√ (2)
5
22
3.独立性检验
(1)2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,
A2= A1 ;变量B:B1,B2= B1,通过观察得到如表所示的数据:
高中数学人教A版选修12课件:12《独立性检验的基本思想及初步应用》8
→ 代得入(法a+求6Q)2的+轨b2=迹1方6.程
故(2)Q根表据示复以数(的-几6,0何)为意圆义心→,|z41-为z半2|的径几的何圆意.义 → 结论
(2[解)|z析1-] z(21|)表设z示=分x+别yi(x在,圆y∈RP).,则Q集上合 的两个动点间的距离, 又圆心P=距={({x|(P,x,Qy)y||=x)|2x+23+(yy-52->3)622y=++45},4=,0}故|z1-z2|最大值为 6+3 5最小 值为 3故P5表-示6以. (0,3)为圆心,2为半径的圆.
实部相等
,虚部
互为数相时反,这两个复1数叫做2互为共3轭复数.通常记复数z的共轭复数 ,
虚部不等于0的两个共轭复数也叫做
.
交换律
z1·z2= z2·z1
共轭虚数
结合律
(z1·z2)·z3= z1·(z2·z3)
乘法对加法的分配律 z1(z2+z3)= z1z2+z1·z3
4.(a+bi)÷(c+di)=acc2+ +bdd2 +bcc2- +add2 i,复数的除 法的实质是分母实数化,分母为 a+bi 型, 同乘 a-bi,a-bi 型,同乘 a+bi. 5.①(1±i)2=±2i. ②11+ -ii=i,11- +ii=-i. ③(zm)n=zmn. ④z·z =|z|2=| z |2. ⑤ z1·z2 = z1 ·z2 .
节复数代数形式的 乘除运算
掌握复数代数形式的乘法和除法运 算.理解复数乘法的交换律、结合律和乘法 对加法的分配律.理解共轭复数的概念.本 节重点:复数的乘除运算及共轭复数的概 念.对本于复节数的难代数点形式:乘共除法轭法则复,不数必的死记求硬背解,乘及法特可按殊多项复式类数似 的运算. 的办法进行,除法只需记住两个复数相除,就是先把它们的商写成分数的形式,
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
回归分析与独立性检验
会 计 算 两个 随机 变 量 的线 性 相 关 系 数 ,会 通 过 线 性 相 关 系 数 判 断 它 们
之 间的 线性 相 关 程度 .
解独立性 检验 ( 只要求2 × 2 列联 表 )
的基 本 思 想 、 方 法 与初 步 应 用.
通 过对 数 据 的处 理 为 决 策 提供 一 些 合理 的依据 , 认识 统 计 的作 用 . ( 3 ) 形 成在 数 据处 理 的过 程 中进 行 自我评 价 和反 思 的意识 . 体会 统计
‘
数据能够帮助人们认识世界 、做 出决策并对未来进行预测 ,而统计学正是一 门与 数据 打交道的科学.
学习统计最好通过统计和案例探究来进行 . 通过对典型案例的探究 , 进一步了解 回归的基 本思 想 、 方法 , 并
能进行初步应用, 了解独立性检验( 只要求2 X 2 列联表) 的基本思想、 方法 , 并能初步应用这些方法解决简
间具 有 函数 关 系 .
如 果 所有 的样 本 点 落 在 某 一 函 数 的 曲线 附 近 ,变量 之 间 就 有 相关 关 系 ;如果 所 有 的样 本 点 都 落在 某
一
n ( o d 一 b c ) ( 叶6 ) ( c + ) ( n + c ) ( 6 + )
来 描 述 变 量 之 间 的 关 系 .即 变 量 之
量 之 间是 否存 在 相 关 关 系 ,还 可 以 利 用 最 小 二乘 法 估计 回归 直线 方 程 . 由部 分 数 据 得 到 的 回 归 直 线 ,
可 以 对两 个 变 量 间 的线 性 相 关 关 系
有关系” 这一 结 论 成 立 的 可信 程 度 ,
单实 际问题 .
回归分析与独立性检验
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
高二数学人教A版选修12讲义第一章12独立性检验的基本思想及其初步应用
1.2独立性检验的基本思想及其初步应用[核心必知]1.预习教材,问题导入根据以下提纲,预习教材P10~P15的内容,回答下列问题.阅读教材P10“探究”的内容,思考:(1)是否吸烟、是否患肺癌是什么变量?提示:分类变量.(2)吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?提示:不是.(3)如何研究吸烟是否对患肺癌有影响?提示:独立性检验.2.归纳总结,核心必记(1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(3)等高条形图①图形与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②通过直接计算或观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(4)独立性检验公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d具体步骤①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②计算K2,利用公式计算随机变量K2的观测值k.③下结论,如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”[问题思考](1)有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.(2)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?提示:不一定.所有的推断只代表一种可能性,不代表具体情况.(3)下面是2×2列联表.y1y2总计x1332154x2 a 1346总计 b 34则表中a,b处的值应为多少?提示:a=46-13=33,b=33+a=33+33=66.[课前反思](1)分类变量的定义是什么?(2)列联表的定义是什么?2×2列联表中的各个数据有什么意义?(3)什么是等高条形图,有什么作用?(4)独立性检验的内容是什么?知识点1用2×2列联表分析两分类变量间的关系讲一讲1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用a a +b 与cc +d判断二者是否有关系. [尝试解答] 2×2列联表如下:年龄在六十岁以上 年龄在六 十岁以下 总计 饮食以蔬菜为主 43 21 64 饮食以肉类为主27 33 60 总计7054124将表中数据代入公式得a a +b =4364=0.671 875.c c +d =2760=0.45. 显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.类题·通法(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将a a +b 与c c +d ⎝ ⎛⎭⎪⎫b a +b 与d c +d 的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣. 练一练1.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其2×2列联表为:y 1 y 2 x 1 10 18 x 2m26则当m 取下面何值时,X 与Y A .8 B .9 C .14 D .19解析:选C 由10×26≈18m ,解得m ≈14.4,所以当m =14时,X 与Y 的关系最弱.用等高条形图分析两分类变量间的关系知识点2讲一讲2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.[尝试解答]作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.类题·通法利用等高条形图判断两个分类变量是否相关的步骤:练一练2.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是()解析:选D分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.独立性检验知识点3讲一讲3.“一带一路”国际合作高峰论坛圆满落幕了,相关话题在网络上引起了网友们的高度关注,为此,21财经APP联合UC推出“一带一路”大数据微报告,在全国抽取的7亿网民(其中30%为高学历)中有2亿人(其中70%为高学历)对此关注.(1)根据以上统计数据填写下面2×2列联表;(2)根据列联表,用独立性检验的方法分析,能否有99%的把握认为“一带一路”的关注度与学历有关系?高学历网民非高学历网民总计关注不关注总计附:P(K2≥k0)k0P(K2≥k0)k0 3.841[尝试解答] (1)高学历网民非高学历网民总计关注×108×1082×108不关注×108×1085×108总计×108×1087×108(2)K2的观测值k=7×108×(×108××108×108××108)2×108××108×2×108×5×108≈×108,×108>6.635,所以有99%的把握认为“一带一路”的关注度与学历有关系.类题·通法根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.练一练3.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:积极参加班级工作不太主动参加班级工作总计学习积18725少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析学生的学习积极性与对待班级工作的态度是否有关,并说明理由.解:(1)积极参加班级工作的学生有24名,总人数为50,概率为2450=1225.不太主动参加班级工作且学习积极性一般的学生有19名,总人数为50,概率为1950. (2)K 2=50×(18×19-6×7)225×25×24×26=15013≈11.5.∵K 2>10.828, ∴有99.9%的把握认为学习积极性与对待班级工作的态度有关系.———————[课堂归纳·感悟提升]——————1.本节课的重点是用2×2列联表、等高条形图分析两个分类变量间的关系以及独立性检验.2.本节课要重点掌握的规律方法(1)用2×2列联表分析两分类变量间的关系,见讲1; (2)用等高条形图分析两分类变量间的关系,见讲2; (3)独立性检验,见讲3.3.解决一般的独立性检验问题的步骤:(1)通过列联表确定a ,b ,c ,d ,n 的值,根据实际问题需要的可信程度确定临界值k 0; (2)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k ;(3)如果k ≥k 0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.其中第(2)步易算错K 2的值,是本节课的易错点.课下能力提升(二) [学业水平达标练]题组1 用2×2列联表分析两分类变量间的关系1.分类变量X和Y的列联表如下:A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.2.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:() A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是题组2 用等高条形图分析两分类变量间的关系4.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )A .性别与喜欢理科无关B .女生中喜欢理科的百分比为80%C .男生比女生喜欢理科的可能性大些D .男生不喜欢理科的比为60%解析:选C 从图中可以分析,男生喜欢理科的可能性比女生大一些. 5.观察下列各图,其中两个分类变量x ,y 之间关系最强的是( )解析:选D 在四幅图中,D 图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.题组3 独立性检验7.对于分类变量X 与Y 的随机变量K 2的观测值k ,下列说法正确的是( ) A .k 越大,“X 与Y 有关系”的可信程度越小 B .k 越小,“X 与Y 有关系”的可信程度越小 C .k 越接近于0,“X 与Y 没有关系”的可信程度越小 D .k 越大,“X 与Y 没有关系”的可信程度越大解析:选B k 越大,“X 与Y 没有关系”的可信程度越小,则“X 与Y 有关系”的可信程度越大,即k 越小,“X 与Y 有关系”的可信程度越小.8.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:A .90%B .95%C .99%D .99.9% 附:解析:选C 因为K 2=30×(4×2-16×8)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.9.为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H 0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K 2≈P (K 2≥3.841)≈0.05.对此,四名同学得出了以下结论:①有95%的把握认为“这套眼保健操能起到预防近视的作用”; ②若某人未做该套眼保健操,那么他有95%的可能近视; ③这套眼保健操预防近视的有效率为95%; ④这套眼保健操预防近视的有效率为5%. 其中所有正确结论的序号是________.解析:根据查对临界值表知P (K 2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.答案:①10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:根据列联表中的数据,由公式得K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ) =100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.[能力提升综合练]1.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k ≥6.635B .kC .k ≥7.879D .k解析:选C 有99.5%的把握认为事件A 和B 有关系,即犯错误的概率为0.5%,对应的k 0的值为7.879,由独立性检验的思想可知应为k ≥7.879.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,观测值k =110×(40×30-20×20)260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关” 解析:选A 由k ≈P (K 2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A .成绩B .视力C .智商D .阅读量解析:选D 因为K 21=52×(6×22-14×10)216×36×32×20 =52×8216×36×32×20, K 22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,k 23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K 24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K 24>K 22>K 23>K 21,所以阅读量与性别有关联的可能性最大. 4.下列关于K 2的说法中,正确的有________. ①K 2的值越大,两个分类变量的相关性越大; ②K 2的计算公式是K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d );③若求出K 2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H 0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H 0的推断.解析:对于①,K 2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad -bc )应为(ad -bc )2,故②错;③④对.答案:③④5.某班主任对全班50名学生作了一次调查,所得数据如表:)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k 0=6.635,本题中,k ≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.答案:不能6.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为415.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:解:(1)设患肝病中常饮酒的人有x 人,x +230=415,x =6.由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A ,B ,C ,D ,女性为E ,F ,则任取两人有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1 甲流水线样本频数分布表(1)(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下: (2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36, 故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品, 该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品, 该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:因为K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
回归分析与独立性检验复习
yˆ bˆx aˆ
n
__
^
xi yi n x y
b i1 n
_2
xi2 n x
i 1
aˆ Y bˆX
3、样本点中心:______________
回归直线与样本点中心的关系是?
回归直线过样本点中心
4、散点图:表示具有相关关系的两个变量的 一组数据的图形。它可直观判断两变量的关系 是否是线性关系。
(4)E(e) _0______,D(e) 2 __>___ 0
8、残差
(1)残差
对于样本点(xi,yi)(i=1,2,…,n)n的随机误2 差的估计值e^i _e_i __y_i___y_i__
称为相应于点(xi,yi)的残差,__i_1__y_i __yi___称为残差平方和.
有 _正___的线性相关关系。
6、回归分析:对具有_相__关__关__系_的两个变量进行 统计分析的方法。
7、线性回归模型: y bx a e
其中bx+a是确定性函数,x是___解__释_变量 e 是随__机__误__差_,y是_预__报__变_量__
注:e产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
(2)残差图
利用图形来分析残差特性,作图时纵坐标为_残__差_,横坐标可以
选为_样__本__编__号_,也可用其他测量值,这样作出的图称为残差图.
n
2
(3) R2
1
i1 n
yi yi
2
,R2越接近于_1_,表示回归效果越好.
yi y
i1残差平方和
回归平方和
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重点高中选修12回归分析和独立性检验知识总结与联系————————————————————————————————作者:————————————————————————————————日期:1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r (3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报. (2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:用相关指数2R 来刻画回归的效果,公式是µ22121()1()niii nii y y R y y ==-=--∑∑2R 的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:价格x9 9.5 10 10.5 11 销售量y 11 10 8 6 5通过分析,发现销售量y 与商品的价格x 具有线性相关关系,则销售量y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178 儿子身高y /cm 175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计走天桥40 20 60 走斑马线 20 30 50 总计 60 50 110由K 2=n (ad -dc )2(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k 3.841 6.635 10.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10,30.14) 频数12 63 86 182 92 61 4 乙厂:分组[29.86, 29.90) [29.90, 29.94) [29.94, 29.98) [29.98, 30.02) [30.02, 30.06) [30.06, 30.10) [30.10,30. 14)频数 29 71 85 159 76 62 18 (1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲 厂 乙 厂 合 计 优质品 非优质品合 计附 K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k ) 0.05 0.01 k 3.841 6.635巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3. 已知x 、y 取值如下表:x 0 1 4 5 6 8 y 1.3 1.8 5.6 6.1 7.4 9.3从所得的散点图分析可知:y 与x 线性相关,且y ^=0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804. 从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:身高x (cm)160 165 170 175 180 体重y (kg) 63 66 70 72 74根据上表可得回归直线方程:y ^=0.56x +a ^,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业 统计专业男13 10 女7 20 为了判断主修统计专业是否与性别有关系,根据表中数据得到,k =50(13×20-10×7)220×30×23×27≈4.844,因为k >3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.8、某种产品的广告费支出与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。
现随机抽取甲、乙两班各名的数学期末考试成绩,并作出茎叶图(Ⅰ)依茎叶图判断哪个班的平均分高?(Ⅱ)现从甲班所抽数学成绩不低于分的同学中随机抽取两名同学,求刚好有1人在85分以上的概率(Ⅲ)学校规定:成绩不低于分的为优秀,作出分类变量成绩与教学方式的列联表,并判断“能否在犯错误的概率不超过的前提下认为成绩优秀与教学方式有关?”下面临界值表仅供参考:(参考公式:其中)复习专题一数列1、在等差数列中:(1)已知,,求;(2)已知,,求.(3)已知,,,求a 10和S10;(4)已知,,,求和Sn;2、等差数列的前项和为,且,.求数列的通项;3、在等比数列中,(1)已知,,求;(2)已知,,求;4、在等比数列中,.求:(1)首项和公比;(2)前项的和.。