114线性回归分析与独立性检验
考点5,回归分析与独立性检验
考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。
◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。
◆了解回归分析的基本思想、方法及其简单应用。
命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。
◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。
回归方程和独立性检验知识点
回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
回归分析与独立性检验
建构数学
• 1.计算公式
相关系数
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,
回归分析、独立性检验
突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。
独立性检验与线性回归
建立回归模型的步骤: 建立回归模型的步骤:
• 1、确定研究对象,明确哪个变量是解释变量, 确定研究对象,明确哪个变量是解释变量, 哪个变量是预报变量。 哪个变量是预报变量。 • 2、画出确定好的解释变量和预报变量的散点 观察它们之间的关系( 图,观察它们之间的关系(如是否存在线性关 系) • 3、用经验确定回归方程的类型。 用经验确定回归方程的类型。 • 4、按一定规则估计回归方程中的参数。 按一定规则估计回归方程中的参数。 • 5、得到结果后分析残差图是否有异常,若存 得到结果后分析残差图是否有异常, 在异常,则检查数据是否有误,模型是否合适。 在异常,则检查数据是否有误,模型是否合适。
不吸烟 吸烟 总计
三维柱形图
8000 6000 4000 2000 0 不患肺癌 患肺癌 不吸烟 吸烟 吸烟 不吸烟
二维条形图
9000 8000 7000 6000 5000 4000 3000 2000 1000 0 吸烟 不吸烟
患肺癌 不患肺癌
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 吸烟 不吸烟
练习:
• 假设关于某设备的使用年限 和所支出的维修费用 假设关于某设备的使用年限x和所支出的维修费用 y,有如下的统计资料: ,有如下的统计资料: 使用年限 维修费用 • • • • 2 2.2 3 3.8 4 5.5 5 6.5 6 7.0
1)画散点图,求线性回归方程 )画散点图, 2)求变量的相关系数 ) 3)画残差图,并对数据进行残差分析 )画残差图, 4)根据线性回归方程预报使用 年所需维修费。 年所需维修费。 )根据线性回归方程预报使用10年所需维修费
患病 服用药 没有用药 合计 10 20 30 未患病 45 30 75 合计 55 50 105
方法技巧专题25回归分析与独立性检验
方法技巧专题25回归分析与独立性检验回归分析与独立性检验是统计学中常用的两种方法技巧。
本文将从基本概念、执行步骤、解析方法和实际应用等方面详细介绍回归分析与独立性检验。
一、回归分析回归分析是一种用来描述和解释变量之间相互关系的统计方法。
在回归分析中,一个或多个自变量被用来预测或解释一个或多个因变量。
基本概念包括以下几点:1. 自变量(independent variable):研究者控制和操作的变量,用来预测因变量。
2. 因变量(dependent variable):研究者感兴趣的变量,也是我们希望预测或解释的变量。
3. 简单线性回归(simple linear regression):只有一个自变量和一个因变量之间的关系。
4. 多元回归(multiple regression):有两个或两个以上自变量和一个因变量之间的关系。
执行步骤如下:1.收集数据:收集自变量和因变量的数据。
2.绘制散点图:绘制自变量和因变量之间的散点图,观察两个变量之间的关系。
3.拟合回归线:通过回归线拟合数据,找到自变量和因变量之间的最佳关系。
4.计算回归方程:根据回归线的拟合情况,计算出回归方程,用来预测或解释因变量。
常用解析方法有以下几种:1.最小二乘法:通过最小化实际观测值与回归方程预测值之间的误差平方和,来确定回归方程的参数。
2. 相关系数(correlation coefficient):用来衡量自变量和因变量之间的线性相关性强弱,常用Pearson相关系数进行计算。
3.回归方程显著性检验:用来判断回归方程是否显著,即自变量是否对因变量有显著影响。
二、独立性检验独立性检验是用来检验两个或多个分类变量之间是否存在相关性的统计方法。
基本概念包括以下几点:1. 分类变量(categorical variable):变量的取值只能是一些有限的标称级别,而不能用具体的数值表示。
2. 单变量独立性检验(univariate independence test):只包括一个分类变量和一个因变量的关系。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
114线性回归分析与独立性检验
6, 79.86
(72)根据已知得相关系数
3487 7 6 79.86
r
0.972
(280 7 62)(45309 7 79.86)2
由于0.972>0.3754.故纯利润y与每天销
售件数x之间具有显著线性相关关系.
利用已知数据可求得回归直线方程为
yˆ 4.75x 51.36.
总计
196 196 392
00:4711月2日 星期三
30
大旺中学2012年高考数学一轮复习
试根据上述数据比较这两种手术对 病人又发作心脏病的影响有没有差别.
3.回归分析
(1)回归直线:一组具有线性相关关系的数 据(x1,y1),(x2,y2),…,(xn,yn),其回归直线 的截距为 aˆ y b,x
n
(xi x)(yi y)
斜率 bˆ i1 n
,
00:4711月2日 星期三
(xi x)2
i 1
大旺中学2012年高考数学一轮复习
通常,当r的绝对值大于__0_._7_5__时,认为两个
变量有很强的线性相关关系.
00:4711月2日 星期三
大旺中学2012年高考数学一轮复习
4.独立性检验
(1)2×2列联表:假设有两个分类变量X和 Y , 它 们 的 取 值 分 别 为 {x1,x2} 和 {y1,y2} , 其 __样__本__频_数__列联表(称为2×2列联表)为:
6.回归直线方程的系数a,b的最小二 乘估计a,b,使函数Q(a,b)最小,Q 函数指(B )
n
n
A. ( yi a bxi )2 B. | yi a bxi |
i 1
回归分析与独立性检验
5
6
190
200
68.1 71.3
12939 14260
11
12
250
260
86.4 89.7
21600 23322
返回目录
x = 205, y = 72.6
∑ ∑ 12
12
x
2 i
= 518 600,
yi2 = 54 572.94,
i =1
i =1
∑12
xi yi = 182 943
i=1
r=
182943 -12× 205×72.6
返回目录
5.列联表
假设有两个分类变量X和Y,它们的值域分别为{x1,x2} 和{y1,yHale Waihona Puke },其样本频数列联表为y1
y2
总计
x1
a
b
a+b
x2
c
d
总计 a+c
b+d
c+d a+b+c+d
此表称为2×2列联表. 根据观测数据计算由公式
K2
=
(a
+
n(ad - bc)2 b)(c + d)(a + c)(b
回归分析与独立性检验
1.随机误差
由于所有的样本点不共线,而只是散布在某一条直
线的附近,实际上,y=bx+a+e,e是y与 yˆ=bx+a之间
的误差.通常e为随机变量,称为随机误差,它的均值
E(e)=0,方差D(e)=σ2>0.这样线性回归模型的完整表
达式为
{ y=bx+a+e E(e)=0,D(e)=σ2
返回目录
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
回归分析和独立性检验(教师版)
回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2、散点图:将样本中的n 个数据点()(12)i i x y i n =L ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆy bx a =+,称为变量y 对变量x 的回归直线方程,其中a b ,叫做回归系数.用最小二乘法求回归系数ˆˆab ,有如下的公式: 1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynxyb x x xnx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)x y 必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为 A . ˆy=1.23x +0.08 B . ˆy =0.08x +1.23 C . ˆy =1.23x +4 D . ˆy =1.23x +5 解析 回归直线方程过样本点的中心,把点(4,5)代入A 项成立. 答案 A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y bxa =+$; (3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?【解析】(1)如下图(2)y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5 x =46543+++=4.5y =45.4435.2+++=3.5 ∑=n i x i 12=32+42+52+62=86 266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7⨯100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程ˆˆˆybx a =+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?解 (1)散点图如图所示.(2)由表中数据得1ni i i x y =∑=52.5,x =3.5,y =3.5,21ni i x =∑=54,∴ˆb=0.7. ∴ˆa =1.05. ∴ˆy=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时. 二、独立性检验1、22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据a b c d ,,,,并希望根据这样的4个数据来检验上述的两种状态x 与y 是否有关,就称之为22⨯联表的独立性检验.2、独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2K 统计量;查对临界值表,作出判断.3、几个临界值:.4、统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设.5、2K (读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22()()()()()n ad bc K a b c d a c b d -=++++,用它的大小可以用来决定是否拒绝原来的统计假设0H6、2K 统计量的临界值的作用:比如:当2 3.841K ≥时,有95%的把握说事件A 与B 有关;当2 6.635K ≥时,有99%的把握说事件A 与B 有关;当2 3.841K <时,有5%的把握说事件A 与B 是无关的.7、独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立 例、甲、乙两所学校高三年级分别有1200人、1000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下: 分组 [70,80) [80,90) [90,100) [100,110) 频数 3 4 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3 (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.甲校 乙校 总计 优秀 非优秀 总计解:(1)甲校抽取110×12002200=60(人),乙校抽取110×10002200=50(人),故x =10,y =7.(2)估计甲校优秀率为1560=25%,乙校优秀率为2050=40%.(3) 表格填写如下:甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计 60 50 110K 2=110(15×30-20×45)260×50×35×75≈2.83>2.706,又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.练习1、某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( C )A .0.1%B .1%C .99%D .99.9% 2、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A 、B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A 方式)乙班(B 方式)总计 成绩优秀 成绩不优秀 总计[ 甲班(A 方式)乙班(B 方式)总计 成绩优秀 1 5 6 成绩不优秀 19 15 34 总计202040根据列联表中数据,χ2=6×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.回归分析和独立性检验练习题1、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为ˆy=7.19x +73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是( D )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 以下D .身高在145.83 cm 左右2、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y 与x 具有相关关系,回归方程为ˆy=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( A )A .83%B .72%C .67%D .66%解析 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.3、若施化肥量x 与水稻产量y 的回归直线方程为ˆy=5x +250,当施化肥量为80kg 时,预报水稻产量为_____________________.解析 当x =80 kg 时,ˆy=5×80+250=650 kg . 答案 650 kg4根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( B )A .70.09kgB .70.12kgC .70.55kgD .71.05kg5、下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (t)与相应的生产能耗y (t)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( A )A .3B .3.15C .3.5D .4.56、有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( C )A.列联表中c 的值为30,b 的值为35 B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 7、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程ˆˆybx a =+,其中20b =-,ˆˆa y bx =-; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,所以ˆˆay bx =-=80+20×8.5=250. 从而回归直线方程为ˆy =-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x(-20x +250)-4(-20x +250)=-20x 2+330x -1000=-20⎝⎛⎭⎫x -3342+361.25, 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.8、考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[根据公式k 2=470×(25×200-185×60)210×260×85×385≈9.788.由于9.788>7.879,所以我们有99.5%的把握认为经过药物处理跟发生青花病是有关系的.。
回归分析与独立性检验
回归分析的基本思想及其初步应用(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
回归分析与独立性检验
回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xyx n y x x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x ,其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。
线性回归与独立性检验
线性回归与独立性检验基本知识:一、 简单随即抽样:简单地说,就是从一个含有 N 个个体的总体中,逐个不放回地抽取 n 个个体作为样本, (n≤N) 如果每次抽取时, 总体内各个个体被抽到的概率是一样的, 就把这种抽样方法叫做简单随即抽样. 要注意的是:1、简单随即抽样中每个个体被抽到的概率都相等. 2、代表:抽签法(抓阉法) ;随即数法.二、系统抽样:定义见教材必修 3— P58 .(要注意的是系统抽样也保证了每一个个体被抽到的概率是一样的.)三、分层抽样:在抽样时,对总体按照一定的比例进行分层,从各层独立地抽取一定数量的个体合在一起作为样本,这样的抽样方法叫做分层抽样.四、一些概念和公式:1、极差;2、组距与组数;3、茎叶图;4、方差、标准差、众数、中位数、平均数.五、线性相关—散点图:正相关与负相关;正相关指因变量与自变量成正比例关系,散点的分布从左下往右上;反之成负相关,散点的分布自左上往右下.六、回归直线 1、线性回归方程的计算公式:y=bx+a,其中 b,a 的求法如下; (另对于点( x , y ) ,恒在线性回归方程上) 要注意的是:如果 b>0,则成正相关,否则成负相关; 2、相关关系的强弱:相关系数 r—相关系数是判断两个变量之间相关关系的强弱或有无相 关关系的一个概念。
r>0 时,说明两个变量之间成正相关,r<0 时,说明两个变量之间成 负相关.其公式为: 我们规定: (1)当 r [0.75,1]或者[1,0.75] 时,说明两个变量之间的相关关系很强; (2)当 r [0.30,0.75] 时,说明两个变量的相关关系一般.(3)当 r [0.25,0.25] 时,则两个变量的相关关系较弱. 两个变量是否可以用线性回归方程来拟合,就取决于 r 的大小,即看他们之间的相关关 系的强弱, 而要判断所求的线性回归方程的拟合效果怎么样, 就需要来观察线性回归方程与 散点的残差. 3、残差与拟合效果 R2残差:指的是散点的 y 值与线性回归方程的 y 值的差,如果这个差越小,则说明线性回归方 程拟合的效果就越好. 残差平方和:就是将残差先平方再和,那么残差平方和越小,说明拟合效果就越好.其公式 如下:另外: R = 则 R 越大,拟合效果越好.22七、独立性检验:判断两个分类变量 X 和 Y 是否有关系,则应用独立性检验的思想进行判断. 1、 K 2 2n(ad bc) 2 ,其中 n=a+b+c+d (a b)(c d )(a c)(b d )2、 K 的大小可以来衡量两个分类变量是否有关系,并且是有多少的可能证明其有关系. 下面来看几题: 1 、( 2012 •福 建 )某 工 厂 为 了 对 新 研 发 的 一 种 产 品 进 行 合 理 定 价 ,将 该 产 品 按 事 先拟定的价格进行试销,得到如下数据: 单 价 x( 元 ) 销 量 y( 件 ) 8 90 8.2 84 8.4 83_8.6 808.8 759 68( Ⅰ ) 求 回 归 直 线 方 程 y=bx+a , 其 中 b=-20 , a=y x-b_( Ⅱ ) 预 计 在 今 后 的 销 售 中 , 销 量 与 单 价 仍 然 服 从 ( I) 中 的 关 系 , 且 该 产 品 的 成 本 是 4 元 / 件 ,为 使 工 厂 获 得 最 大 利 润 ,该 产 品 的 单 价 应 定 为 多 少 元 ?( 利 润 = 销 售 收 入 -成 本 ) .2、 (2013•福建) 某工厂有 25 周岁以上 (含 25 周岁) 工人 300 名, 25 周岁以下工人 200 名. 为 研究工人的日平均生产量是否与年龄有关, 现采用分层抽样的方法, 从中抽取了 100 名工人, 先统计了他们某月的日平均生产件数,然后按工人年龄在“25 周岁以上(含 25 周岁) ”和 “25 周岁以下” 分为两组,再将两组工人的日平均生产件数分为 5 组:[50,60) , [60,70) , [70,80) ,[80,90) ,[90,100)分别加以统计,得到如图所示的频率分布直方图. P(x2≥k) k 0.100 2.706 0.050 3.841 0.010 6.635 0.001 10.828(Ⅰ)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“25 周 岁以下组”工人的概率; (Ⅱ)规定日平均生产件数不少于 80 件者为“生产能手” ,请你根据已知条件完成列联表, 并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”?附: (注:此公式也n(ad cb) 2 可以写成 k2= (a b)(c d )(a c)(b d ) ,n=a+b+c+d)3、 (2012•辽宁)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机 抽取了 100 名观众进行调查,其中女性有 55 名.如图是根据调查结果绘制的观众日均收看 该体育节目时间的频率分布直方图;将日均收看该体育节目时间不低于 40 分钟的观众称为 “体育迷” ,已知“体育迷”中有 10 名女性. (Ⅰ)根据已知条件完成下面的 2×2 列联表,并据此资料你是否认为“体育迷”与性别有 关?非体育迷 男 女 合计体育迷合计(Ⅱ) 将日均收看该体育项目不低于 50 分钟的观众称为 “超级体育迷” , 已知 “超级体育迷” 中有 2 名女性,若从“超级体育迷”中任意选取 2 人,求至少有 1 名女性观众的概率. P( K2≥k) 0.05 k 0.013.841 6.6354、 某 大 学 餐 饮 中 心 为 了 解 新 生 的 饮 食 习 惯 , 在 全 校 一 年 级 学 生 中 进 行 了 抽 样 调 查,调查结果如下表所示: 喜欢甜品 南方学生 北方学生 合计 60 10 70 不喜欢甜品 20 10 30 合计 80 20 100( Ⅰ )根 据 表 中 数 据 ,问 是 否 有 95% 的 把 握 认 为“ 南 方 学 生 和 北 方 学 生 在 选 用 甜 品的饮食习惯方面有差异”; ( Ⅱ )已 知 在 被 调 查 的 北 方 学 生 中 有 5 名 数 学 系 的 学 生 ,其 中 2 名 喜 欢 甜 品 ,现 在从这 5 名学生中随机抽取 3 人,求至多有 1 人喜欢甜品的概率. P ( x > k ) 0.100 0.050 0.010 k 2.706 3.841 6.63525 、 ( 2011 •陕 西 ) 设 ( x 1 , y 1 ) , ( x 2 , y 2 ) , „ , ( x n , y n ) 是 变 量 x 和 y 的 n个样本点, 直线 l 是由这些样本点通过最小二乘法得到的线性回归直线 (如图) , 以下结论中正确的是( )A. x 和 y 的 相 关 系 数 为 直 线 l 的 斜 率 B. x 和 y 的 相 关 系 数 在 0 到 1 之 间 C. 当 n 为 偶 数 时 , 分 布 在 l 两 侧 的 样 本 点 的 个 数 一 定 相 同 D、直线 l 过点(x , y ).__6、为 了 解 儿 子 身 高 与 其 父 亲 身 高 的 关 系 , 随 机 抽 取 5 对 父 子 身 高 数 据 如 下父亲身高 x(cm) 儿子身高 y(cm) 174 175 176 175 176 176 176 177 178 177则 y 对 x 的线性回归方程为( A . y=x-1 B . y=x+1) C . y = 88+1 x 2D . y=1767、( 2014 •孝 感 二 模 )某 车 间 为 了 规 定 工 时 定 额 ,需 要 确 定 加 工 零 件 所 花 费 的 时 间 ,为此进行了 5 次试验,收集数据如下:加工零件 x(个) 加工时间 y(分钟) 10 64 20 69 30 75 40 82 50 90经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数 x 与加工时间 y 这两个变量,下列判断正确的是( )A . 成 正 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 75 ) B . 成 正 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 76 ) C . 成 负 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 76 ) D . 成 负 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 75 )8、( 2011 •湖 南 ) 通 过 随 机 询 问 110 名 性 别 不 同 的 大 学 生 是 否 爱 好 某 项 运 动 , 得 到如下的列联表:男 爱好 不爱好 总计 40 20 60 女 20 30 50 总计 60 50 110附表:p(k2≥k) k 0.050 3.841 0.010 6.635 0.001 10.828参照附表,得到的正确结论是()A . 有 99% 以 上 的 把 握 认 为 “ 爱 好 该 项 运 动 与 性 别 有 关 ” B . 有 99% 以 上 的 把 握 认 为 “ 爱 好 该 项 运 动 与 性 别 无 关 ” C . 在 犯 错 误 的 概 率 不 超 过 0.1% 的 前 提 下 , 认 为 “ 爱 好 该 项 运 动 与 性 别 有 关 ” D . 在 犯 错 误 的 概 率 不 超 过 0.1% 的 前 提 下 , 认 为 “ 爱 好 该 项 运 动 与 性 别 五 关 ”9、( 2014 •湖 南 一 模 ) 下 列 四 个 命 题 中 ① 设 有 一 个 回 归 方 程 y=2-3x , 变 量 x 增 加 一 个 单 位 时 , y 平 均 增 加 3 个 单 位 ; 2 2 ② 命 题 P : “ ∃ x 0 ∈ R , x 0 -x 0 -1 > 0 “ 的 否 定 ¬ P : “ ∀ x ∈ R , x -x-1 ≤ 0 ” ; ③ 设 随 机 变 量 X 服 从 正 态 分 布 N ( 0 , 1 ) , 若 P ( X > 1 ) =p , 则 P ( -l < X < 0 ) =1 p 22④ 在 一 个 2 × 2 列 联 表 中 , 由 计 算 得 K =6.679 , 则 有 99% 的 把 握 确 认 这 两 个 变 量 间有关系. 其中正确的命题的个数有( ) 附:本题可以参考独立性检验临界值表 P(K ≥k) k20.5 0.4550.40 0.7080.25 1.3230.15 2.0720.10 2.7060.05 3.8410.025 5.0240.010 6.5350.005 7.8790.001 10.828A. 1 个B. 2 个C. 3 个D. 4 个。
回归分析与独立性检验
回归分析与独立性检验作者:金石来源:《数学金刊·高考版》2015年第02期回归分析与独立性检验是常见的统计方法,这部分内容多出现在高考试题中,更是近几年高考的热点. 此部分知识主要考查同学们的统计基本思想及初步应用,试题难度为中等偏上.重点难点重点:理解回归分析、独立性检验的基本思想及实施步骤.难点:回归分析中残差变量的解释与分析,相关系数、指标R2的理解;独立性检验中随机变量K2的含义.方法突破(1)回归分析中重点考查的是对两个线性相关关系的变量的研究,具体步骤是:①画散点图;②利用最小二乘法求回归直线方程中的■=■=■,■=■-■■;③用回归直线方程进行预报.(2)首先要充分理解独立性检验原理. 独立性检验原理指的是在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就判断这个假设不成立,且该推断犯错误的概率不超过这个小概率. 在解决具体问题时通过计算随机变量K2=■的观测值k(注意公式中a,b,c,d,a+c,b+d,a+b,c+d在2×2列联表中的位置),并且在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得出有多大的把握认为两个分类变量有关.典例精讲■例1 某产品的广告费用x与销售额y的统计数据如下表:■根据上表可得回归方程■=■x+■中的■=9.4,据此模型预报广告费用为6万元时销售额为()A. 63.6万元?摇B. 65.5万元?摇?摇C. 67.7万元?摇D. 72.0万元思索由于回归直线过样本点的中心(■,■),所以利用所给数据求出■,■,将其带入回归方程中,求出■,从而得出回归直线方程;再令x=6,求得■的值即为本题的答案.破解由已知可得■=■=3.5,■=■=42,所以样本点的中心为(3.5,42),且■=9.4. 由此得■=■-■■=42-9.4×3.5=9.1. 所以回归直线方程为■=9.4x+9.1. 当x=6时,■=65.5万元,故选B.■例2 某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:■■(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:■=■,■=■-■■.思索利用所给数据和回归直线的斜率和截距的最小二乘估计公式求出■,■,进而得到回归直线方程. 利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,可以从正负相关及该地区农村居民家庭人均纯收入每年变化幅度方面加以说明. 预测该地区2015年农村居民家庭人均纯收入,可将2015年的年份代号9代入所求的回归直线方程求出■即可.破解(1)由所给数据计算得■=■(1+2+3+4+5+6+7)=4,■=■(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,■(ti-■)2=9+4+1+0+1+4+9=28,■(ti-■)(yi-■)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,■=■=■=0.5,■=■-■■=4.3-0.5×4=2.3. 故所求回归方程为■=0.5t+2.3.(2)由(1)知,■=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入(1)中的回归方程,得■=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.■例3 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:■由K2=■算得K2=■≈7.8.附表:■参照附表,判断下列结论正确的是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C. 有99%以上的把握认为“爱好该项运动与性别有关”D. 有99%以上的把握认为“爱好该项运动与性别无关”思索由所给随机变量K2的观测值k在临界值表格中找到满足k≥k0的临界值k0,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.破解由于K2的观测值k在临界值表格中找到满足k≥k0的临界值k0=6.635,那么犯错误的概率不超过k0对应的P(k≥k0)=0.010即为判断犯错误的概率,所以在犯错误的概率不超过1%的前提下,认为“爱好该项运动与性别有关”. 也可以表示为有99%以上的把握认为“爱好该项运动与性别有关”. 故选C.■例4 为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:■(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?附表:■K2=■.思索首先将2×2列联表补充完整,可以清晰地得出调查的500位老年人中有多少位需要志愿者提供帮助,这样就可以得出该地区老年人中,需要帮助的老年人的比例的估算值了. 再由所给随机变量K2公式求出观测值k在临界值表格中找到满足k≥k■的临界值k■,那么犯错误的概率不超过k0对应的P(k≥k0)即为判断犯错误的概率,从而得到有多大的把握认为两个分类变量有关.破解首先将2×2列联表补充完整,如下表:■(1)由表中清晰地得出调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者帮助的老年人的比例的估算值为■=14%.(2)由所给随机变量K2公式求出观测值k=■≈9.967,由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.变式练习1. 已知变量x与y正相关,且由观测数据算得样本平均数■=3,■=3.5,则由该观测数据算得的线性回归方程可能是()A. ■=0.4x+2.3?摇B. ■=2x-2.4C. ■=-2x+9.5?摇D. ■=-0.3x+4.42. 设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为■=0.85x-85.71,则下列结论中不正确的是()A. y与x具有正的线性相关关系B. 回归直线过样本点的中心(■,■)C. 若该大学某女生身高增加1cm,则其体重约增加0.85kg?摇D. 若该大学某女生身高为170cm,则可断定其体重必为58.79kg3. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:■(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程■=■x+■;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤. 试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)4. “十一”期间,某城市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表,下列结论正确的是()■A. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到…光盘‟与性别有关”B. 在犯错误的概率不超过1%的前提下,认为“该市居民能否做到…光盘‟与性别无关”C. 有90%以上的把握认为“该市居民能否做到…光盘‟与性别有关”D. 有90%以上的把握认为“该市居民能否做到…光盘‟与性别无关”5. 为考察高中生的性别与是否喜欢数学课程之间的关系,在我市某普通中学高中生中随机抽取200名学生,得到如下2×2列联表:■根据独立性检验的基本思想,约有多大的把握认为“性别与喜欢数学课之间有关系”?附表:■■K2=■.参考答案1. A2. D3. (1)图略;(2)■xiyi=66.5,■=■=4.5,■=■=3.5,■x2i=32+42+52+62=86,■=■=■=0.7,■=■-■■=3.5-0.7×4.5=0.35. 故线性回归方程为■=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨标准煤).4. C5. 由所给随机变量K2公式求出观测值k=■≈6.061>5.024,所以约有97.5%的把握认为“性别与喜欢数学课之间有关系”.。
回归分析与独立性检验
龙源期刊网 回归分析与独立性检验作者:焦凤英来源:《数学金刊·高考版》2013年第02期本部分内容是新课标的新增内容. 主要考点是线性回归和独立性检验的统计方法.高考考查以中、低档题为主,多以选择题、填空题的形式出现,以实际问题为背景,综合考查学习基础知识、应用基础知识、解决实际问题的能力.[重点难点]重点:①会通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;能根据给出的线性回归方程系数公式建立线性回归方程;②了解独立性检验的基本思想、方法及简单应用,能通过计算判断两个变量的相关程度.难点:①对最小二乘法思想的理解,线性回归方程系数的计算量问题;②对独立性检验的基本思想、方法的理解.[方法突破]1. 一般情况下,在尚未断定两个变量之间是否具有线性相关关系的时候,应先进行相关性检验.可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法估计求出回归直线方程.由部分数据得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性的相关关系问题转化成确定性的函数关系问题进行研究.回归直线方程:[y] =a+bx. 其中b==,a=-b.2. 独立性检验的基本思想类似于反证明法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,则在该假设下构造的随机变量K2应该很小(K2=,其中n=a+b+c+d),如果由观测数据计算得到的K2很大,则在一定程度上说明假设不合理. 经过对统计量分布的研究,已经得到了两个临界值:3.841与6.635.当根据具体的数据算出的K2>3.841时,有95%的把握说事件A与B有关;当K2>6.635时,有99%的把握说事件A与B有关;当K2≤3.841时,认为事件A与B是无关的.。
线性回归方程求法独立性检验应用相关系数计算
线性回归方程求法独立性检验应用相关系数计算线性回归是一种统计分析方法,用于描述两个或多个变量之间的关系。
线性回归方程用于预测因变量的值,基于自变量的值。
具体来说,线性回归方程的求解过程涉及以下几个步骤:1.数据收集:首先需要收集因变量和自变量的观测数据。
例如,如果我们想要预测一个人的体重(因变量),则需要收集与体重相关的自变量数据,如身高、性别、年龄等。
2.数据预处理:在进行线性回归之前,应对数据进行一些预处理操作,以确保数据的连续性和一致性。
这可能包括处理缺失值、异常值和离群点等。
3.模型建立:根据数据集和所需的模型类型,选择适当的线性回归模型。
一般情况下,我们可以使用最小二乘法来估计回归系数。
4.回归系数估计:通过最小化残差平方和,计算回归方程中的回归系数。
这一过程可以使用各种方法来实现,如正规方程、梯度下降法等。
5.模型评估:对建立的线性回归模型进行评估,评估模型的拟合程度和预测能力。
例如,可以使用残差分析、决定系数等指标来评估模型。
6.预测:使用线性回归方程对新的自变量数据进行预测,并通过回归方程计算因变量的值。
独立性检验应用:独立性检验用于检验两个或多个变量之间的关系是否独立。
这对于确定变量之间是否存在相互作用、关联性以及预测性很重要。
以下是一些常用的独立性检验方法及其应用:1.卡方检验:卡方检验常用于检验两个分类变量之间的独立性。
例如,可以使用卡方检验来检验性别(男、女)和吸烟习惯(吸烟、不吸烟)之间的关系。
2.t检验:t检验用于比较两个样本均值之间是否存在显著差异。
例如,可以使用t检验来检验男性和女性体重之间的差异。
3.方差分析(ANOVA):方差分析适用于比较两个或多个组之间的均值是否存在显著差异。
例如,可以使用方差分析来比较不同年龄组的体重平均值之间的差异。
4.相关分析:相关分析用于研究两个连续变量之间的线性关系。
例如,可以使用相关系数来分析身高和体重之间的相关性。
相关系数计算:相关系数用于度量两个变量之间的线性相关程度,其值介于-1和1之间。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1
i 1
此时r0.05=0.3754.
i 1
(1)求 x , y ;
(2)判断纯利润y与每天销售件数x之
间是否线性相关,如果线性相关,求出回归
线性方程.
2019/12/12
大旺中学2012年高考数学一轮复习
y (1 ( 1)6 6 x 6 1 7 9 ( 3 7 3 4 8 5 1 6 8 9 7 9 0 8 9 9 1 ) ) 6 7 , 9 .8 6 (7 2)根据已知得相关系数
来确定在多大程度上可认为 __两__个__分__类_变__量__有__关__系___的方法称为两个分 类变量的独立性检验.
2019/12/12
大旺中学2012年高考数学一轮复习
1.在下列量与量的关系中,是相关关系的 为( D )
①正方体的体积与棱长间的关系;
②一块农田的水稻产量与施肥量的关系;
③人的身高与年龄;
2019/12/12
大旺中学2012年高考数学一轮复习
5.下面是2×2列联表:
y1
x1
a
x2
22
合计
b
y2
合计
21
73
25
47
46 120
则表中a,b的值分别为( C )
A.94,72 C.52,74
2019/12/12
B.52,50 D.74,52
大旺中学2012年高考数学一轮复习
6.回归直线方程的系数a,b的最小二 乘估计a,b,使函数Q(a,b)最小,Q 函数指(B )
(2)相关系数r
n
(xi x)(yi y)
i1
n
n
(xi x)2(yi y)2
i1
i1
2019/12/12
大旺中学2012年高考数学一轮复习
当r>0时,表明两个变量_正__相__关__;当r<0时, 表明两个变量__负__相__关___.
r的绝对值越接近于1,表明两个变量的线性相关
④家庭的支出与收入;
A. ②③ C. ① ④
B. ③④ D. ②③④
2019/12/12
大旺中学2012年高考数学一轮复习
2.在画两个变量的散点图时,下面叙述中正确 的是( B )
A. 预报变量在x轴上,解释变量在y轴上 B. 解释变量在x轴上,预报变量在y轴上 C. 可以选择两个变量中任意一个变量在x轴上 D. 可以选择两个变量中任意一个变量在y轴上
性__越__强___;r的绝对值越接近于0,表明两个变量之 间__几__乎__不__存___在__线__性__相__关__关__系_.
通常,当r的绝对值大于__0_._7_5__时,认为两个
变量有很强的线性相关关系.
2019/12/12
大旺中学2012年高考数学一轮复习
4.独立性检验
(1)2×2列联表:假设有两个分类变量X和 Y , 它 们 的 取 值 分 别 为 {x1,x2} 和 {y1,y2} , 其 __样__本__频_数__列联表(称为2×2列联表)为:
大旺中学2012年高考数学一轮复习
对 196 个 接 受 心 脏 搭 桥 手 术 的 病 人 和 196个接受血管清障手术的病人进行了3年 的跟踪研究,调查他们是否又发作过心脏 病.调查结果如下表所示:
又发作过 未发作过心 心脏病 脏病
心脏搭桥手术 39
157
血管清障手术 29
167
合计
68
324
2019/12/12
大旺中学2012年高考数学一轮复习
(2)由(1)知回归直线方程y=0.08+1.23x. 故当x=10时,y=0.08+ 1.23 × 10 = 12.38(万元). 即估计使用10年时维修费用是12.38万 元. 【评注】求线性回归方程是解决问题的 关键,理解题意是解题的保证.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d a+b+c+d
2019/12/12
大旺中学2012年高考数学一轮复习
(2)利用随机变量
K 2 ( a b ) ( c n ( a d d ) ( b c a ) 2 c) ( b d ) ( 其 中 n a b c d )
A. 能较精确地给出这种判断的可靠程度 B. 得出的结论完全正确,不会出错 C. K2的观测值很大时(比如大于20),则得出 的结论完全正确,不会出错 D. K2的观测值很小时(比如小于2),则得出的 结论肯定错误
2019/12/12
大旺中学2012年高考数学一轮复习
题型1:变量的相关关系
下列说法中正确的是( D ) A. 任何两个变量之间都有相关关系 B. 球的体积与该球的半径具有相关关系 C. 农作物的产量与施化肥量之间是一种确定 性的关系 D. 某商品的生产量与该商品的销售价格之间 是一种非确定性的关系
3 4 8 7 7 6 7 9 .8 6
r
0 .9 7 2
( 2 8 0 7 6 2 ) ( 4 5 3 0 9 7 7 9 .8 6 ) 2
由于0.972>0.3754.故纯利润y与每天销
售件数x之间具有显著线性相关关系.
利用已知数据可求得回归直线方程为
y ˆ 4 .7 5 x 5 1 .3 6 .
A. k>3 .841
B. k<3.841
C. k>6.635
D. k<6.635
2019/12/12
大旺中学2012年高考数学一轮复习
8.利用随机变量K2来确定在多大程度上可以 认为“两个分类变量有关系”的方法称为两个分 类变量的独立性检验.利用独立性检验不仅可以
考察两个分类变量是否有关系,而且(A )
2019/12/12
大旺中学2012年高考数学一轮复习
3.某考察团对全国十大城市进行职工人 均工资水平x(千元)与居民人均消费水平y (千元)的统计调查,知y与x具有相关关系, 回归方程为 =0.6yˆ 6x+1.562.若其中某城市居 民人均消费水平为7.675千元,则该城市的 人均工资约为千元( ) A
A.9.262 C.8.302
B.7.675 D.1.562
2019/12/12
大旺中学2012年高考数学一轮复习
4.对于两个变量之间的相关系数,下列 说法中正确的是( C )
A. |r|越大,相关程度越大 B. |r|∈(0,+∞),|r|越大,相关程度越 小,|r|越小,相关程度越大 C. |r|≤1且|r|越接近于1,相关程度越大; |r|越接近于0,相关程度越小 D. 以上说法都不对
2019/12/12
大旺中学2012年高考数学一轮复习
某个体服装店经营某种服装,一周内 获纯利y(元)与该周每天销售这种服装的 件数x之间的一组数据如下:
x3456789 y 66 69 73 81 89 90 91
2019/12/12
大旺中学2012年高考数学一轮复习
7
7
7
已 知 x i2 2 8 0 , y i2 4 5 3 0 9 , x iy i 3 4 8 7 ,
(2)估计使用年限为10年时,维修费用是 多少?
2019/12/12
大旺中学2012年高考数学一轮复习
(1)制表:
xi
yi
1
2 2.2
2
3 3.8
3
4 5.5
4
5 6.5
5
6 7.0
合计 20 25
xi2
xiyi
4 4.4
9 11.4
16 22.0
25 35.5
36 42.0
90 112.3
则 x =4, y =5,b=1.23,a=0.08.
08 12 19 28 36 48 59 68 80 87 98 07
yi 2. 2. 2. 2. 2. 2. 2. 3. 3. 3. 3. 3.
25 37 40 55 64 75 92 03 14 26 36 50
2019/12/12
大旺中学2012年高考数学一轮复习
(1)散点图如下:
2019/12/12
大旺中学2012年高考数学一轮复习
K 27 2 (1 6 8 2 8 2 0 )2 8 .4 2 . 4 4 2 8 3 6 3 6
由于K2≈8.42>7.879,即性别和读营 养说明之间有99.5%的可能是有关系的.
【评注】解题的关键在于熟悉公式 (不要求记忆).
2019/12/12
大旺中学2012年高考数学一轮复习
第十一章 概率与统计
第四讲
线性回归分析和独立性检验
2019/12/12
大旺中学2012年高考数学一轮复习
1.两个变量的线性相关
如果散点图中点的分布从整体上看大致 在 一条直线附近 ,就称这两个变量之间具有线 性相关关系,这条直线叫做 回归直线 .
2.回归方程 (1)最小二乘法求回归直线使得样本数据
的点到回归直线的_距__离__的__平__方_和__最__小__的方法叫 做最小二乘法.
2019/12/12
大旺中学2012年高考数学一轮复习
(2)回归方程方程 yˆ bxa 是两个具有线 性相关关系的变量的一组数据(x1,y1), (x2,y2),…,(xn,yn)的回归方程.
3.回归分析
(1)回归直线:一组具有线性相关关系的数 据(x1,y1),(x2,y2),…,(xn,yn),其回归直线 的截距为 aˆ yb,x
2019/12/12
大旺中学2012年高考数学一轮复习