回归分析、独立性检验

合集下载

正态分布、回归、独立性检验(教师)分析

正态分布、回归、独立性检验(教师)分析

正态分布、回归分析、独立性检验一、正态分布1.已知随机变量X 服从正态分布N(a,4),且P(X>1)=0.5,则实数a 的值为 ( ) A.1B.2C.3D.4【解题指南】画正态曲线图,由对称性得图象关于x=a 对称且P(X>a)=0.5,结合题意得到a 的值. 【解析】选A.随机变量X 服从正态分布N(a,4),所以曲线关于x=a 对称,且P(X>a)=0.5,由P(X>1)=0.5,可知μ=a=1.故选A. 2.(2014·广州高二检测)已知ξ~N(3,σ2),若P(ξ≤2)=0.2,则P(ξ≤4)等于 ( ) A.0.2B.0.3C.0.7D.0.8【解析】选D.根据正态曲线的特征:知对称轴为x=3,[来源:学+科+网Z+X+X+K] 所以P(ξ≤3)=0.5,则P(ξ≤2)=P(ξ>4)=0.2, 所以P(ξ≤4)=1-P(ξ>4)=1-0.2=0.8.3.随机变量ξ服从正态分布N(1,4),若P(2<ξ<3)=a,则P(ξ<-1)+P(1<ξ<2)= ( ) A.1−a 2B.12-a C.a+0.003aD.12+a【解析】选B.因为随机变量ξ服从正态分布N(1,4),所以正态曲线关于x=1对称,因为P(2<ξ<3)=a,所以P(-1<ξ<0)=a,P(1<ξ<2)=P(0<ξ<1),P(ξ<-1)+P(1<ξ<2)=12-a,故选B.4.已知随机变量X 服从正态分布N(3,1),且P(2≤X ≤4)=0.6826,则P(X>4)= ( ) A.0.158 8B.0.158 7C.0.158 6D.0.158 5【解析】选B.P(3≤X ≤4)=12P(2≤X ≤4)=0.3413,P(X>4)=0.5-P(3≤X ≤4)=0.5-0.3413=0.1587.5.设随机变量ξ服从正态分布N(μ,σ2),且二次方程x 2+4x+ξ=0无实数根的概率为12,则μ等于 ( ) A.1B.2C.4D.不能确定【解析】选C.因为方程x 2+4x+ξ=0无实数根的概率为12,由Δ=16-4ξ<0,得ξ>4, 即P(ξ>4)=12=1-P(ξ≤4),故P(ξ≤4)=12,所以μ=4.6. 设某地区某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,令ξ表示从中随机抽取的一名儿童的身高,则下列概率中最大的是()A.P(120<ξ<130)B.P(125<ξ<135)C.P(130<ξ<140)D.P(135<ξ<145)【解析】选C.因为某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,即ξ~N(135,100),所以在长度都是10的区间上,概率最大的应该是在对称轴两侧关于对称轴对称的区间,从四个选项可知C最大,故选C.7.设随机变量ξ服从正态分布N(0,1),则下列结论正确的是.①P(|ξ|<a)=P(ξ<a)+P(ξ>-a)(a>0);②P(|ξ|<a)=2P(ξ<a)-1(a>0);③P(|ξ|<a)=1-2P(ξ<a)(a>0);④P(|ξ|<a)=1-P(|ξ|>a)(a>0).【解析】因为P(|ξ|<a)=P(-a<ξ<a),所以①不正确;因为P(|ξ|<a)=P(-a<ξ<a)=P(ξ<a)-P(ξ<-a)=P(ξ<a)-P(ξ>a)=P(ξ<a)-(1-P(ξ<a))=2P(ξ<a)-1,所以②正确,③不正确;因为P(|ξ|<a)+P(|ξ|>a)=1,所以P(|ξ|<a)=1-P(|ξ|>a)(a>0),所以④正确.答案:②④8.在某次数学考试中,考生的成绩服从正态分布N(90,100),则考试成绩在110分以上的概率是. 【解析】因为考生的成绩X~N(90,100),所以正态曲线关于x=90对称,且标准差为10,根据3σ原则知P(70<x<110)=P(90-2×10<x<90+2×10)=0.9544,所以考试成绩X位于区间(70,110)上的概率为0.9544,则考试成绩在110分以上的概率是(1-0.9544)=0.0228.=129.某大型国有企业为10000名员工定制工作服,设员工的身高(单位:cm)服从正态分布N(173,52),则适合身高在163~183cm范围内员工穿的服装大约要定制套.【解析】因为员工的身高(单位:cm)服从正态分布N(173,52),即服从均值为173cm,方差为25的正态分布, 因为适合身高在163~183cm范围内取值即在(μ-2σ,μ+2σ)内取值,其概率为:95.44%,从而得出适合身高在163~183cm范围内员工穿的服装大约套数是:10000×95.44%=9544套.10.随机变量ξ服从正态分布N(1,σ2),已知P(ξ<0)=0.3,则P(ξ<2)等于()A.0.7B.0.6C.0.5D.0.3【解析】选A.根据图象的对称性知P(ξ>2)=P(ξ<0)=0.3,所以P(ξ<2)=1-P(ξ>2)=0.7.11.正态分布N (0,49)中,数值落在(-∞,-2)∪(2,+∞)内的概率是 ( )A.0.46B.0.997C.0.03D.0.0026[来源:]【解析】选D.由题意μ=0,σ=23,所以P(-2<X<2)=P (0−3×23<X <0+3×23)=0.9974, 所以P(X<-2)+P(X>2)=1-P(-2≤X ≤2)=1-0.9974=0.0026.故选D.12.某中学高考数学成绩近似地服从正态分布N(100,100),则此校数学成绩在80~120分的考生占总人数的百分比为 ( ) A.31.74%B.68.26%C.95.44%D.99.74%【解析】选C.设此校学生的数学成绩为X,随机变量X ~N(100,100),所以μ=100,σ2=100,即σ=10.则P(μ-2σ<X ≤μ+2σ)=95.44%.故选C.13.我校在模块考试中约有1000人参加考试,其数学考试成绩ξ~N(90,a 2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的35,则此次数学考试成绩不低于110分的学生人数约为 ( ) A.600B.400C.300D.200【解析】选D.由平均分为90,考试成绩在70分到110分之间的人数为600,则落在90分到110分之间的人数为300人,故数学考试成绩不低于110分的学生人数约为500-300=200.14.某个部件由三个元件按如图方式连接而成,元件1或元件2正常工作,且元件3正常工作,则部件正常工作,设三个电子元件的使用寿命(单位:小时)均服从正态分布N(1000,502),且各个元件能否正常工作相互独立,那么该部件的使用寿命超过1000小时的概率为 .【解析】三个电子元件的使用寿命均服从正态分布N(1000,502)得:三个电子元件的使用寿命超过1000小时的概率为p=12,超过1000小时时元件1或元件2正常工作的概率p 1=1-(1-p)2=34,那么该部件的使用寿命超过1000小时的概率为p 2=p 1×p=38. 二、回归分析1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是 ( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心点(x ̅,y ̅)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y 与x 具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(x ̅,y ̅),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm 时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20 B.40 C.60 D.80 【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a 的值.由表格得x ̅=18+13+10−14=10,y ̅=24+34+38+644=40,因为(x ̅,y ̅)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解析】(1)如图(2)由对照数据,计算得:∑i=14x i y i =66.5,∑i=1nx i 2=32+42+52+62=86,x ̅=4.5,y ̅=3.5,=66.5−4×4.5×3.586−4×4.52=66.5−6386−81=0.7,=y ̅-x ̅=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35. (3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨). 三、独立性检验1.下面是一个2×2列联表:则表中a,b 的值分别为 ( ) A.54,103B.64,103C.54,93D.64,93【解析】选A.由题意,a+40=94,40+63=b,所以a=54,b=103. 2.对于独立性检验,下列说法正确的是 ( )A.K 2独立性检验的统计假设是各事件之间相互独立B.K 2可以为负值C.K 2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”D.2×2列联表中的4个数据可以是任意正数 【解析】选A.由独立性检验的检验步骤可知A 正确;因为2×2列联表中的数据均为正整数,故K 2不可能为负值,排除B;因为K 2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D. 3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:为了判断休闲方式是否与性别有关,根据表中数据,得到K 2的观测值k ≈4.667,因为3.841≤k ≤6.635,所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为()A.1%B.99%C.5%D.95%选C.因为3.841≤k≤6.635,P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01,所以判断出错的可能性至多为5%.4.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见,2452名女性中有1200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率【解析】选C.由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.5.在列联表中,类1在类B中所占的比例为.【解析】因为由列联表可以看出类1在类B中有c个,而类B共有(c+d)个,所以类1在类B中所占的比例是c.c+d6.某厂家为调查一种新推出的产品的颜色接受程度是否与性别有关,数据如下表:根据表中的数据,得到k≈10.653,因为k≥7.879,所以产品的颜色接受程度与性别有关系,那么这种判断出错的可能性为.【解析】根据k≈10.653,对照临界值表可以得到,这种判断出错的可能性是0.005.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k≈4.844.则可以在犯错误的概率不超过 的前提下认为选修文科与性别有关系. 【解析】因为根据表中数据,得到K 2的观测值k ≈4.844>3.841.所以可以在犯错误的概率不超过0.05的前提下认为选修文科与性别有关系. 答案:0.058.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.【解析】(1)将2×2列联表中的数据代入计算公式, 得K 2的观测值k=100×(60×10−20×10)280×20×70×30=10021≈4.762,由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3),其中a i (i=1,2)表示喜欢甜品的学生,b j (j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的. 抽取3人,至多有1人喜欢甜品的事件为以下7个:(a 1,b 1,b 2),(a 1,b 1,b 3),(a 1,b 2,b 3),(a 2,b 1,b 2),(a 2,b 1,b 3),(a 2,b 2,b 3),(b 1,b 2,b 3), 从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为710.。

第3讲变量间的相关关系、回归分析及独立性检验

第3讲变量间的相关关系、回归分析及独立性检验

1.两个变量的线性相关
(1)在散点图中,点散布在从左下角 到 右上角 的区域.对于两个
变量的这种相关关系,我们将它称为正相关.如果在散点图
中,点散布在从左上角 到右下角 的区域,两个变量的这种相关 关系称为负相关.
(2)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在 一条直线附近 个变量之间具有线性相关关系,这条直线叫做回归直线. ,就称这两
思维点拨:利用相关系数r进行线性相关检验(也可利用散点图).如果线性相 关,再求回归直线方程并加以判断.
因为r>0.5,所以y与x有很强的线性相关关系. (2) =0.728 6x-0.857 1. ≤10⇒0.728 6x-0.857 1≤10,
(3)要使
所以x≤14.901 3.
所以机器的转速应控制在14.901 3转/秒以下.
它在a,b,c,d 取不同值时,K2可能不同,而k是取定一组数a, b,c,d后的一个确定的值.
1.下列关系中,是相关关系的为(
)
①学生的学习态度与学习成绩之间的关系;
②教师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A.①② B.①③ C.②③ D.②④
判断两个变量正相关还是负相关,有三种方法: 1.利用散点图;
2.利用相关系数r的符号;当r>0时,正相关;r<0时,负相关;
3.在已知两变量线性相关时,也可以利用回归方程 =a+bx是增函数,两变量是正相关, 当b<0时, =a+bx是减函数, 两变量是负相关. =a+bx.当b>0时,
【例 1】 山东鲁洁棉业公司的科研人员在 7块并排、形状大小相同的试
=1.23×10+0.08=12.3+0.08=12.38(万元),即估计使用10

变量的相关性、回归分析、独立性检验

变量的相关性、回归分析、独立性检验
甲校 优秀 非优秀 总计 15 45 60 乙校 20 30 50 总计 35 75 110
复习目标
课前预习
高频考点
课时小结
2 110 × ( 15 × 30 - 20 × 45 ) K2的观测值k= ≈2.829>2.706, 60×50×35×75
故在犯错误的概率不超过0.10的前提下认为两个学校的数学 成绩有差异.
n
.
通过求 Q= [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法, 即求回归直线, 使得样本数据的点到它 的距离的平方和最小,这一方法叫作最小二乘法.
复习目标 课前预习 高频考点 课时小结
- x· y xiyi-n-
i =1
n
(5) 相关系数: r=
n 2 2 -2 xi -n- x y2 i -n y i=1 i=1
高频考点
课时小结
解析 (1)从甲校抽取 110× 1 000
1 200 1 200+1 000
=60(人),
从乙校抽取 110× 故 x=10,y=7.
1 200+1 000
=50(人),
复习目标
课前预习
高频考点
课时小结
1学成绩的优秀率为50×100%=40%. (3)表格填写如图,
甲校 优秀 非优秀 总计 乙校 总计
复习目标
课前预习
高频考点
课时小结
参考数据与公式:
2 n ( ad - bc ) 由列联表中数据计算K2= . (a+b)(c+d)(a+c)(b+d)
临界值表
P(K2≥k0) k0 0.10 0.05 0.010
2.706 3.841 6.635

高中数学 第2讲变量的相关性、回归分析及独立性检验

高中数学 第2讲变量的相关性、回归分析及独立性检验

第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。

2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。

(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系

高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。

4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)

独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。

回归分析与独立性检验

回归分析与独立性检验

建构数学
• 1.计算公式
相关系数

r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】-讲义(学生版)

回归直线方程与独立性检验【题集】1. 回归直线方程12(1)(2)1.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:(年龄岁)(脂肪含量)根据上表的数据得到如下的散点图.脂肪含量年龄岁)根据上表中的样本数据及其散点图.求.计算样本相关系数(精确到),并刻画它们的相关程度.若关于的线性回归方程为,求的值(精确到),并根据回归方程估计年龄为岁时人体的脂肪含量.附:参考数据:,,,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.(1)12(2)2.我市南澳县是广东唯一的海岛县,海区面积广阔,发展太平洋牡蛎养殖业具有得天独厚的优势,所产的“南澳牡蛎”是中国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.根据养殖规模与以往的养殖经验,产自某南澳牡蛎养殖基地的单个“南澳牡蛎”质量(克)在正常环境下服从正态分布.购买只该基地的“南澳牡蛎”,会买到质量小于的牡蛎的可能性有多大?年该基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量(万元)的数据如下:人工投入增量(人)年收益增量(万元)该基地为了预测人工投入增量为人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由散点图的样本点分布,可以认为样本点集中在曲线:的附近,对人工投入增量做变换,令,则,且有,,,.年收益增量(万元)人工投入增量(万人)根据所给的统计量,求模型②中关于的回归方程(精确到).根据下列表格中的数据,比较两种模型的相关指数,并选择拟合精度更高、更可靠的模型,预测人工投入增量为人时的年收益增量.回归模型模型①模型②回归方程附:若随机变量,则,;样本的最小二乘估计分式为:,,另,刻画回归效果的相关指数.(1)(2)3.某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”,现统计了活动刚推出一周内每天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次,统计数据如下表所示:参考数据:设,,,.参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.根据散点图判断,在推广期内,扫码支付的人次关于活动推出天数的回归方程适合用来表示,求出该回归方程,并预测活动推出第天使用扫码支付的人次.推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式现金会员卡扫码比例商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受折优惠的概率为,享受折优惠的概率为,享受折优惠的概率为,现有一名顾客购买了元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少.(1)4.一个工厂在某年里连续个月每月产品的总成本(万元)与该月产量(万件)之间有如下一组数据:通过画散点图,发现可用线性回归模型拟合与的关系,请用相关系数加以说明.12(2)解答下列各题:建立月总成本与月产量之间的回归方程.通过建立的关于的回归方程,估计某月产量为万件时,此时产品的总成本为多少万元?(均精确到)附注:①参考数据:,,,,.②参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.(1)(2)(3)5.某单位共有名员工,他们某年的收入如下表:员工编号年薪(万元)求该单位员工当年年薪的平均值和中位数.从该单位中任取人,此人中年薪收入高于万的人数记为,求的分布列和期望.已知员工年薪收入与工作年限成正相关关系,某员工工作第一年至第四年的年薪分别为万元,万元,万元,万元,预测该员工第五年的年薪为多少?附:线性回归方程中系数计算公式分别为:,,其中,为样本均值.6.全民健身倡导全民做到每天参加一次以上的体育健身活动,旨在全面提高国民体质和健康水平.某部门在该市年发布的全民健身指数中,其中的“运动参与”的评分值进行了统计,制成如图所示的散点图:运动参与评分值年份代码:注:年份代码分别对应年份(1)(2)根据散点图,建立关于的回归方程.从该市的市民中随机抽取了容量为的样本,其中经常参加体育锻炼的人数为,以频率为概率,若从这名市民中随机抽取人,记其中“经常参加体育锻炼”的人数为,求的分布列和数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.(1)(2)7.某项科研活动共进行了次试验,其数据如表所示:特征量第次第次第次第次第次从次特征量的试验数据中随机地抽取两个数据,求至少有一个大于的概率.求特征量关于的线性回归方程;并预测当特征量为时特征量的值.(附:回归直线的斜率和截距的最小二乘法估计公式分别为,).8.某地区某农产品近几年的产量统计如表:年份年份代码年产量(万吨)(1)12(2)附:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.根据表中数据,建立关于的线性回归方程.若近几年该农产品每千克的价格(单位:元)与年产量满足的函数关系式为,且每年该农产品都能售完.根据中所建立的回归方程预测该地区年该农产品的产量.当为何值时,销售额最大?(1)(2)9.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精确到).若莫斯科某餐厅销售的中国小龙虾的等级代码数值为,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对一组数据,,,,其回归直线的斜率和截距最小二乘估计分别为:,.参考数据:,.(1)(2)(3)10.某食品店为了了解气温对销售量的影响,随机记录了该店月份中天的日销售量(单位:千克)与该地当日最低气温(单位:)的数据,如表:求出与的回归方程.判断与之间是正相关还是负相关;若该地月份某天的最低气温为,请用所求回归方程预测该店当日的销售量.设该地月份的日最低气温,其中近似为样本平均数,近似为样本方差,求.附:①回归方程中,,.②,.若,则,.2. 独立性检验(1)(2)11.我市为改善空气环境质量,控制大气污染,政府相应出台了多项改善环境的措施,其中一项是为了减少燃油汽车对大气环境污染,从年起大力推广使用新能源汽车,鼓励市民如果需要购车,可优先考虑选用新能源汽车,政府对购买使用新能源汽车进行购物补贴,同时为了地方经济发展,对购买本市企业生产的新能源汽车比购买外地企业生产的新能源汽车补贴高,所以市民对购买使用本市企业生产的新能源汽车的满意度也相应有所提高,有关部门随机抽取本市本年度内购买新能源汽车的户,其中有户购买使用本市企业生产的新能源汽车,对购买使用新能源汽车的满意度进行调研,满意度以打分的形式进行,满分分,将分数按照,,,,分成组,得如下频率分布直方图.得分频数组距若本次随机抽取的样本数据中购买使用本市企业生产的新能源汽车的用户中有户满意度得分不少于分,得分不少于分为满意,根据提供的条件数据,完成下面的列联表,并判断是否有的把握认为购买使用新能源汽车的满意度与产地有关?满意不满意总计购买本市企业生产的新能源汽车户数 购买外地企业生产的新能源汽车户数总计以频率作为概率,政府对购买使用新能源汽车的补贴标准是:购买本市企业生产的每台补贴万元,购买外地企业生产的每台补贴万元,但本市本年度所有购买新能源汽车的补贴每台的期望值不超过万元,则购买外地产的新能源汽车每台最多补贴多少万元?附:,其中.(1)1(2)12.大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备.某高中成功开设大学先修课程已有两年,共有人参与学习先修课程,这两年学习先修课程的学生都参加了高校的自主招生考试(满分分),结果如下表所示:分数人数参加自主招生获得通过的概率这两年学校共培养出优等生人,根据如图等高条形图,填写相应列联表,并根据列联表检验能否在犯错误的概率不超过的前提下认为学习先修课程与优等生有关系?非优等生优等生学习大学先修课程没有学习大学先修课程优等生非优等生总计学习大学先修课程 没有学习大学先修课程总计已知今年全校有名学生报名学习大学先修课程,并都参加了高校的自主招生考试,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.在今年参与大学先修课程学习的学生中任取一人,求他获得高校自主招生通过的概率.2某班有名学生参加了大学先修课程的学习,设获得高校自主招生通过的人数为,求的分布列,试估计今年全校参加大学先修课程学习的学生获得高校自主招生通过的人数.参考数据:参考公式:,其中.(1)(2)13.某企业原有甲、乙两条生产线,为了分析两条生产线的效果,先从两条生产线生产的大量产品中各抽取了件产品作为样本.检测一项质量指标值,该项指标值落在内的产品视为合格品,否则为不合格品.乙生产线样本的频数分布表质量指标合计频数质量指标值频率组距甲生产线样本的频率分布直方图根据甲生产线样本的频率分布直方图,以从样本中任意抽取一件产品且为合格品的频率近似代替从甲生产线生产的产品中任意抽取一件产品且为合格品的概率,估计从甲生产线生产的产品中任取件恰有件为合格品的概率.现在该企业为提高合格率欲只保留其中一条生产线.根据上述图表所提供的数据,完成下面的列联表,并判断是否有的把握认为该企业生产的这种产品的质量指标值与生产线有关.若有的把握,请从合格率的角度分析保留哪条生产线较好.甲生产线乙生产线合计合格品不合格品合计附:,.12(1)(2)14.某共享单车经营企业欲向甲市投放单车,为制定适宜的经营策略,该企业首先在已投放单车的乙市进行单车使用情况调查.调查过程分随机问卷,整理分析及开座谈会三个阶段.在随机问卷阶段,,两个调查小组分赴全市不同区域发放问卷并及时收回;在整理分析阶段,两个调查小组从所获取的有效问卷中,针对至岁的人群,按比例随机抽取了份,进行了数据统计,具体情况如下表:组别年龄组统计结果组统计结果经常使用单车偶尔使用单车经常使用单车偶尔使用单车人人人人人人人人人人人人先用分层抽样的方法从上述人中按“年龄是否达到岁”抽出一个容量为人的样本,再用分层抽样的方法将“年龄达到岁”的被抽个体数分配到“经常使用单车”和“偶尔使用单车”中去.求这人中“年龄达到岁且偶尔使用单车”的人数.为听取对发展共享单车的建议,调查组专门组织所抽取的“年龄达到岁且偶尔使用单车”的人员召开座谈会,会后共有份礼品赠送给其中人,每人份(其余人员仅赠送骑行优惠券).已知参加座谈会的人员中有且只有人来自组,求组这人中得到礼品的人数的分布列和数学期望.从统计数据可直观得出“是否经常使用共享单车与年龄(记作岁)有关”的结论.在用独立性检验的方法说明该结论成立时,为使犯错误的概率尽可能小,年龄应取还是?请通过比较的观测值的大小加以说明.参考公式:,其中.15.年,依托用户碎片化时间的娱乐需求,分享需求以及视频态的信息负载力,短视频快速崛起,与此同时,移动阅读方兴未艾,从侧面反应了人们对精神富足的一种追求,在习惯了大众娱乐所带来的短暂愉悦后,部分用户依旧对有着传统文学底蕴的严肃阅读青睐有加.某读书抽样调查了非一线城市和一线城市各名用户的日使用时长(单位:分钟),绘制成频率分布直方图如下,其中日使用时长不低于分钟的用户记为“活跃用户”.(1)(2)(3)频率组距日使用时长分钟频率组距日使用时长分钟城市城市请填写以下列联表,并判断是否有的把握认为用户活跃与否与所在城市有关.活跃用户不活跃用户合计城市 城市合计以频率估计概率,从城市中任选名用户,从城市中任选名用户,设这名用户中活跃用户人数为,求的分布列和数学期望.该读书还统计了年个季度的用户使用时长(单位:百万小时),发现与季度()线性相关,得到回归直线为,已知这个季度的用户平均使用时长为百万小时,试以此回归方程估计年第一季度该读书用户使用时长约为多少百万小时.附:,其中.(1)16.在中国移动的赞助下,某大学就业部从该大学年已就业的、两个专业的大学本科毕业生中随机抽取了人进行月薪情况的问卷调查,经统计发现,他们的月薪收入在元到元之间,具体统计数据如下表:月薪(百元)人数将月薪不低于元的毕业生视为“高薪收入群体”,并将样本的频率视为总体的概率,已知该校届大学本科毕业生李阳参与了本次调查问卷,其月薪为元.请根据上述表格中的统计数据填写下面的列联表,并通过计算判断,是否能在犯错误的概率不超过的前提下认为“高薪收入群体”与所学专业有关?12(2) 非高薪收入群体高薪收入群体合计专业专业 合计经统计发现,该大学届的大学本科毕业生月薪(单位:百元)近似地服从正态分布,其中近似为样本平均数(每组数据取区间的中点值).若落在区间的左侧,则可认为该大学本科生属“就业不理想”的学生,学校将联系本人,咨询月薪过低的原因,为以后的毕业生就业提供更好的指导.试判断李阳是否属于“就业不理想”的学生.中国移动为这次参与调查大学本科毕业生制定了赠送话费的活动,赠送方式为:月薪低于的获赠两次随机话费,月薪不低于的获赠一次随机话费,每次赠送的话费及对应的概率分别为:赠送话费(单位:元)概率则李阳预期获得的话费为多少元?附:,其中,.(1)(2)17.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中,随机抽取了人,从美国某城市的高中生中随机抽取了人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:家占、朋友聚集的地方占、个人空间占.为了考察高中生的“恋家(在家里感到最幸福)”是否与国别有关,构建了如下列联表.在家里最幸福在其它场所幸福合计中国高中生美国高中生合计请将列联表补充完整;试判断能否有的把握认为“恋家”与否与国别有关.从中国高中生的学生中以“是否恋家”为标准采用分层抽样的方法,随机抽取了人,再从这人中随机抽取人.若所选名学生中的“恋家”人数为,求随机变量的分布列及期望.附:,其中.视力频率组距(1)不做操做操近视不近视是否做操是否近视(2)(3)18.眼保健操是一种眼睛的保健体操,主要是通过按摩眼部穴位,调整眼及头部的血液循环,调节肌肉,改善眼的疲劳,达到预防近视等眼部疾病的目的.某学校为了调查推广眼保健操对改善学生视力的效果,在应届高三的全体名学生中随机抽取了名学生进行视力检查,并得到如图的频率分布直方图.附:,若直方图中后三组的频数成等差数列,试估计全年级视力在以上的人数.为了研究学生的视力与眼保健操是否有关系,对年纪不做眼保健操和坚持做眼保健操的学生进行了调查,得到下表中数据,根据表中的数据,能否在犯错的概率不超过的前提下认为视力与眼保健操有关系?在中调查的名学生中,按照分层抽样在不近视的学生中抽取人,进一步调查他们良好的护眼习惯,在这人中任取人,记坚持做眼保健操的学生人数为,求的分布列和数学期望.19.为调查某地人群年龄与高血压的关系,用简单随机抽样方法从该地区年龄在岁的人群中抽取人测量血压,结果如下:高血压非高血压总计年龄到岁(1)(2)年龄到岁总计附参考公式及参考数据:计算表中的、、值;是否有的把握认为高血压与年龄有关?并说明理由.现从这名高血压患者中按年龄采用分层抽样的方法抽取人,再从这人中随机抽取人,求恰好一名患者年龄在到岁的概率.(1)(2)20.随着移动支付的普及,中国人的生活方式正悄然巨变,带智能手机,不带钱包出门还渐成为中国人的新习惯. 年我国移动支付增长迅猛,据统计,某支付平台年移动支付的笔数占总支付笔数的.从该支付平台 年的所有支付中任取笔,求移动支付笔数的期望和方差.现有名使用该支付平台的用户,其中 名是城市用户,名是农村用户,调查他们年个人移动支付的比例是否达到了,得到列联表如下:个人移动支付达到了个人移动支付达到了合计城市用户农村用户合计根据上表数据,问是否有的把握认为年个人移动支付比例达到了与该用户是城市用户还是农村用户有关?附:.(1)21.学校为了了解高三学生每天自主学习中国古典文学的时间,随机抽取了高三男生和女生各名进行问卷调查,其中每天自主学习中国古典文学的时间超过小时的学生称为“古文迷”,否则为“非古文迷”,调查结果如表:古文迷非古文迷合计男生女生合计根据表中数据能否判断有的把握认为“古文迷”与性别有关?(2)(3)现从调查的女生中按分层抽样的方法抽出人进行调查,求所抽取的人中“古文迷”和“非古文迷”的人数.现从()中所抽取的人中再随机抽取人进行调查,记这人中“古文迷”的人数为,求随机变量的分布列与数学期望.参考公式:,其中.参考数据:(1)(2)(3)22.每年的月日为世界读书日,为调查某高校学生(学生很多)的读书情况,随机抽取了男生,女生各人组成的一个样本,对他们的年阅读量(单位:本)进行了统计,分析得到了男生年阅读量的频率分布表和女生阅读量的频率分布直方图.男生年阅读量的频率分布表(年阅读量均在区间内):本/年频数根据女生的频率分布直方图估计该校女生年阅读量的中位数.在样本中,利用分层抽样的方法,从男生年与度量在,的两组里抽取人,再从这人中随机抽取人,求这一组中至少有人被抽中的概率.若年阅读量不小于本为阅读丰富,否则为阅读不丰富,依据上述样本研究阅读丰富与性别的关系,完成下列列联表,并判断是否有的把握认为月底丰富与性别有关.性别 阅读量丰富不丰富合计男 女 合计附:,其中.频率组距分数(1)(2)(3)23.为了调查学生数学学习的质量情况,某校从高二年级学生(其中男生与女生的人数之比为)中,采用分层抽样的方法抽取名学生依期中考试的数学成绩进行统计.根据数学的分数取得了这名同学的数据,按照以下区间分为八组:①,②,③,④,⑤,⑥,⑦,⑧得到频率分布直方图如图.已知抽取的学生中数学成绩少于分的人数为人.求的值及频率分布直方图中第④组矩形条的高度;如果把“学生数学成绩不低于分”作为是否达标的标准,对抽取的名学生,完成下列列联表:达标未达标合计男生女生合计据此资料,你是否认为“学生性别”与“数学成绩达标与否”有关?若从该校的高二年级学生中随机抽取人,记这人中成绩不低于分的学生人数为,求的分布列、数学期望和方差.附1:“ 列联表”的卡方统计量公式:附2:卡方 统计量的概率分布表:…………(1)12(2)24.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”遍布了一二线城市的大街小巷.为了解共享单车在.市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了人进行抽样分析,得到下表(单位:人):经常使用偶尔或不用合计岁及以下岁以上合计根据以上数据,能否在犯错误的概率不超过的前提认为市使用共享单车情况与年龄有关?请回答下列问题:现从所抽取的岁以上的网民中,按“经常使用”与“偶尔或不用”这两种类型进行分层抽样抽取人,然后,再从这人中随机选出人赠送优惠券,求选出的人中至少有人经常使用共享单车的概率.将频率视为概率,从市所有参与调查的网民中随机抽取人赠送礼品,记其中经常使用共享单车的人数为,求的数学期望和方差.参考公式:,其中.参考数据:(1)(2)25.某调查机构对某校学生做了一个是否同意生“二孩”抽样调查,该调查机构从该校随机抽查了名不同性别的学生,调查统计他们是同意父母生“二孩”还是反对父母生“二孩”,现已得知人中同意父母生“二孩”占,统计情况如表:同意不同意合计男生 女生合计求,的值,根据以上数据,能否有的把握认为是否同意父母生“二孩”与性别有关?请说明理由.。

(整理)回归分析及独立性检验).

(整理)回归分析及独立性检验).

回归分析与独立性检验1.回归分析的含义是什么?有哪些基本步骤?线性回归模型怎样用表达式表示?产生随机误差的原因是什么?a b2.回归方程中与怎样求解?3.刻画回归效果的方式有哪些?(1)残差(2)残差图(3)残差图法2(4)残差平方和(5)相关指数R1.判一判(正确的打“√”,错误的打“×”)(1)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )(2)求线性回归方程前可以不进行相关性检验. ( )(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )2、一位母亲记录了儿子3~9岁的身高数据,并由此建立的身高与年龄的回归模型为 =7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则下列说法正确的A.身高一定是145.83cmB.身高在145.83cm 以上C.身高在145.83cm 左右D.身高在145.83cm 以下有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是A.0B.1C.2D.3【典例1】(1)(2014·合肥高二检测)已知一个回归方程为 =1.5x+45,x ∈{1,7,5,13,19},则 =A.9B.45C.58.5D.1.5(2)如图所示的是四个残差图,其中回归模型的拟合效果最好的是()yy(3)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:出散点图,并求线性回归方程; ②求出R 2; ③进行残差分析.类型二 非线性回归分析【典例2】(1)两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的A.y=a ·x bB.y=a+blnxC.y=a ·e bxD.y=a ·2)在一次抽样调查中,测得样本的5个样本点的数值如下表:hxe试写出y 与x 之间的回归方程.【易错误区】对回归系数的含义理解错误【典例】(2014·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为 =256+3x,表明 ( )A.废品率每增加1%,生铁成本增加259元B.废品率每增加1%,生铁成本增加3元C.废品率每增加1%,生铁成本平均每吨增加3元D.废品率不变,生铁成本为256元 【提升练习】1.(2014·梅州高二检测)在2012年8月15日那天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:=-3.2x+40,且m+n=20,则其中的n= .2、设三组实验数据(x1,y 1),(x 2,y 2),(x 3,y 3)的回归直线方程是:=x+,使代数式[y1-(x 1+)]2+[y 2-(x 2+)]2+[y 3-(x 3+)]2的值最小时,=-,=,(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:(1)求上表中前三组数据的回归直线方程.(2)若|y 1-(x 1+)|≤0.2,即称(x 1,y 1)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.1.分类变量的概念是什么?什么是列联表,什么是2×2列联表?2.等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?3.独立性检验的概念是什么?怎样进行独立性检验?1.判一判(正确的打“√”,错误的打“×”)(1)事件A与B的检验无关,即两个事件互不影响. ( )(2)事件A与B关系越密切,K 2就越大. ( )(3)K 2的大小是判断事件A与B是否相关的唯一数据. ( )2、下列不是分类变量的是( )A.近视B.身高C.血压D.药物反应类型一等高条形图的应用【典例1】(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是( )(2)(2014·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.类型二 独立性检验【典例2】(1)(2014·台州高二检测)在独立性检验中,统计量K 2有三个临界值:2.706,3.841和6.635;当K 2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K 2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当K 2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K 2=20.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A.在犯错误的概率不超过0.05的前提下认为两者有关B.约有95%的打鼾者患心脏病C.在犯错误的概率不超过0.01的前提下认为两者有关D.约有99%的打鼾者患心脏病(2)(2014·执信高二检测)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.①根据上表数据作出甲流水线样本频率分布直方图;②若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;③由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.【提升练习】1.(2014·德州高二检测)假设两个分类变量X与Y,它们的取值分别为{x1,x2},{y1,y2},其2×2列联表如图所示:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为( )A.a=50,b=40,c=30,d=20B.a=50,b=30,c=20,d=40C.a=50,b=20,c=40,d=30D.a=20,b=30,c=50,d=40。

第54讲 变量的相关性、回归分析、独立性检验

第54讲 变量的相关性、回归分析、独立性检验

7
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说 明理由. 【答案】(1)积极参加班级工作的学生的概率是 P1= 12 ,抽到不太主动参加班级工作且学习积极性一
25
般的学生的概率是 P2= 19 .(2)有 99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”
(参考公式: y a bx ,其中 b
i 1 n
, a y bx )
2
xi2n x
i 1
【答案】解: (1)如下图
5
2013 年高考第一轮复习资—理科数学
【解析】略
考点二:独立性检验
【例 2】哈尔滨冰雪大世界每年冬天都会吸引大批游客,现准备在景区内开设经营热饮等食品的店铺若 干。根据以往对 500 名 40 岁以下(含 40 岁)人员和 500 名 40 岁以上人员的统计调查,有如下一系列 数据:40 岁以下(含 40 岁)人员购买热饮等食品的有 260 人,不购买热饮食品的有 240 人;40 岁以上 人员购买热饮等食品的有 220 人,不购买热饮等食品的有 280 人,请根据以上数据作出 2 2 列联表, 并运用独立性检验思想,判断购买热饮等食品与年龄(按上述统计中的年龄分类方式)是否有关系?
n
x1 y1 nx y
(用最小二乘法求线性回归方程系数公式 b i1
,a y bx )
n
xi2
2
nx
i 1
【答案】见解析
5
5
【解析】(1) x 5, y 50. xi2 145, xi yi 1380
i 1
i 1
设回归方程为 y bx a
5
则 b xi yi 5x y i1

130回归分析与独立性检验

130回归分析与独立性检验
富县高级中学集体备课教案
年级:高三科目:数学授课人:
课题
回归分析与独立性检验
第130课时
教学
目标
了解回归分析的思想、方法及其简单应用
了解独立性检验的思想、方法及其初步应用
重点
独立性检验可以先考虑定义,然后再考虑用K2值,以及相关系数r的值进行判断
中心发言人
难点
在进行回归分析之前一定要进行相关性检验,可以用散点图,也可以用相关系数.
(1)对变量Y与x进行相关性检验;
(2)如果Y与x之间具有线性相关关系,求回归直线方程.
例2:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.请用独立性检验方法判断秃顶与患心脏病是否有关系?
巩固练习:教师用书【410】即时巩固:1,2,3
教法
讨论与讲授法相结合
学法
课前预习、课堂合作探究
个人主页
教具
教材、练习册
课型
常规课
课时安排
1课时




主要知识:回归直线方程
r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱
相关系数
.
|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
课后作业:对应课后提升:选择题
教后
反思
备课组长签字:年月日
主要方法:
对具有相关关系的两个变量进行统计分析时,首先要作出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线.
判断两个变量是否具有线性相关时,可以从散点图判断,也可以求出相关系数r进行判断.

回归直线方程与独立性检验-讲义(学生版)

回归直线方程与独立性检验-讲义(学生版)

回归直线方程与独立性检验一、课堂目标1、明确建立回归模型的基本步骤、熟练运用线性回归模型解决非线性相关问题.2、能够运用独立性检验对两个分类变量是否线性相关作出判断.二、直击高考知识模块知识内容全国卷常见题型回归分析一元线性回归模型2020年全国三卷18题解答题回归直线方程独立性检验分类变量2020年全国二卷18题解答题三、知识讲解1. 回归分析知识回顾方法提升考点一:回归直线方程的求解对于一组具有线性相关关系的数据:,,,,,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中,,称为样本点的中心,位于回归直线上.【思想方法与技巧】利用线性相关回归分析处理非线性问题:研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,这两个变量之间不具有线性相关关系,也就是非线性相关关系.考点二:相关系数的求解对于变量与随机抽到的对数据,,,,,可以利用相关系数来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.【思想方法与技巧】利用相关系数评判结果如下:(1)时,表示两个变量正相关;(2)时,表示两个变量负相关;(3)越接近于,表明两个变量的线性相关程度越强;(4)越接近于,表明两个变量的线性相关程度越弱.高考链接1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单(1)(2)(3)位:公顷)和这种野生动物的数量,并计算得,,,,.附:相关系数,.求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数).求样本的相关系数(精确到).根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(1)(2)2.下图是某地区年至年环境基础设施投资额(单位:亿元)的折线图.为了预测该地区年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据年至年的数据(时间变量的值依次为)建立模型①:.根据年至年的数据(时间变量的值依次为)建立模型②:.年份投资额分别利用这两个模型,求该地区年的环境基础设施投资额的预测值.你认为用哪个模型得到的预测值更可靠?并说明理由.3.下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图(1)(2)年份代码年生活垃圾无害化处理量注:年份代码分别对应年亿吨参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明.建立关于的回归方程(系数精确到),预测年我国生活垃圾无害化处理量.方法应用4.随着互联网的兴起,越来越多的人选择网上购物.某购物平台为了吸引顾客提升销售额,每年双十一都会进行某种商品的促销活动,该商品促销活动规则如下:①“价由客定”,即所有参与该商品促销活动的人进行网络报价,每个人并不知晓其他人的报价也不知道参与该商品促销活动的总人数;②报价时间截止后,系统根据当年双十一该商品数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;③每人限购一件,且参与人员分配到名额时必须购买,某位顾客拟参加年双十一该商品促销活动,他为了预测该商品最低成交价,根据该购物平台的公告统计了最近年双十一参与该商品促销活动的人数(见表):年份年份编号参与人数(百万人)12(2)由收集数据的散点图发现,可用线性回归模拟拟合参与人数(百万人)与年份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年双十一参与该商品促销活动的人数.该购物平台调研部门对位拟参与年双十一该商品促销活动人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(千元)频数求这位参与人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替).假设所有参与该商品促销活动人员的报价可视为服从正态分布且与可分别由①中所求的样本平均值和样本方差估值,若预计年双十一该商品最终销售量为,请你合理预测(需说明理由)该商品的最低成交价.参考公式及数据()回归方程:,其中,.(),,.()若随机变量服从正态分布,则,,.5.我国全面二孩政策已于年月日起正式实施,国家统计局发布的数据显示,从年到年,中国的人口自然增长率变化始终不大,在上下波动(如图).中国内地总人口和自然增长率总人口自然增长率出生率(万人)为了了解年龄介于岁至岁之间的适孕夫妻对生育二孩的态度如何,统计部门按年龄分为组,每组选取对夫妻进行调查,统计有生育二孩意愿的夫妻数,得到下表:‰(1)(2)有意愿数(参考数据和公式:,,,,,)设每个年龄区间的中间值为 ,有意愿数为,求样本数据的线性回归直线方程,并求该模型的相关系数(结果保留两位小数).从,,,,这五个年龄段中各选出一对夫妻(能代表该年龄段超过半数夫妻的意愿)进一步调研,再从这对夫妻中任选对夫妻,设其中不愿意生育二孩的夫妻数为,求的分布列和数学期望.(1)(2)6.某小区为了调查居民的生活水平,随机从小区住户中抽取个家庭,得到数据如下:家庭编号月收入(千元)月支出(千元)参考公式:回归直线的方程是:,其中,,.据题中数据,求月支出(千元)关于月收入(千元)的线性回归方程(保留一位小数);从这个家庭中随机抽取个,记月支出超过千家庭个数为,求的分布列与数学期望.7.如表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号数学物理学号数学(1)(2)(3)理用这人的两科成绩制作如下散点图:物理数学学号为号的同学由于严重感冒导致物理考试发挥失常,学号为号的同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将、两同学的成绩(对应于图中、两点)剔除后,用剩下的个同学的数据作分析,计算得到下列统计指标:数学学科平均分为,标准差为,物理学科的平均分为,标准差为,数学成绩与物理成绩的相关系数为,回归直线(如图所示)的方程为.若不剔除、两同学的数据,用全部的成绩作回归分析,设数学成绩与物理成绩的相关系数为,回归直线为,试分析与的大小关系,并在图中画出回归直线的大致位置.如果同学参加了这次物理考试,估计同学的物理分数(精确到个位).就这次考试而言,学号为号的同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平可按公式统一化成标准分再进行比较,其中为学科原始分,为学科平均分,为学科标准差).(1)(2)8.已知某校个学生的数学和物理成绩如下表:学生的编号数学物理若在本次考试中,规定数学在分以上(包括分)且物理在分以上(包括分)的学生为理科小能手.从这个学生中抽出个学生,设表示理科小能手的人数,求的分布列和数学期望.通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用表示数学成绩,用表示物理成绩,求与的回归方程.参考公式:,其中,.(1)(2)某调查机构为了了解某产品年产量(吨)对价格(千元/吨)和利润的影响,对近五年该产品的年产量和价格统计如下表:求关于的线性回归方程若每吨该产品的成本为千元,假设该产品可全部卖出,预测当年产量为多少时,年利润取到最大值?参考公式:,.(1)(2)10.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间进行分析研究,他们分别记录了月日至月日的每天昼夜温差与实验室每天每棵种子中的发芽数,得到如下资料:日期月日月日月日月日月日温差摄氏度发芽颗该农科所确定的研究方案是:先从这组数据中选取组数据求线性回归方程,再用剩下的组数据进行检验.若选取的组数据恰好是连续天的数据(表示数据来自互不相邻的三天),求的分布列及期望.根据月日至日数据,求出发芽数关于温差的线性回归方程.由所求得线性回归方程得到的估计数据与剩下的检验数据的误差均不超过颗,则认为得到的线性回归方程是可靠的,试问所得的线性回归方程是否可靠?附:参考公式:,.(1)11.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精(2)若莫斯科某个餐厅打算从上表的种等级的中国小龙虾中随机选种进行促销,记被选中的种等级代码数值在以下(不含)的数量为,求的分布列及数学期望.参考公式:对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.(1)(2)12.某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司年至年的年利润关于年份代号的统计数据如下表(已知该公司的年利润与年份代号线性相关):年份年份代号年利润(单位:亿元)求关于的线性回归方程,并预测该公司年(年份代号记为)的年利润.当统计表中某年年利润的实际值大于由()中线性回归方程计算出该年利润的估计值时,称该年为级利润年,否则称为级利润年.将()中预测的该公司年的年利润视作该年利润的实际值,现从年至年这年中随机抽取年,求恰有年为级利润年的概率.参考公式:,.2. 独立性检验知识回顾方法提升考点:独立性检验求解步骤(1)准确作出列联表;(2)统计假设成立;(3)计算;(4)将上一步计算得到的观测值与临界值比较,从而接收或拒绝假设.【思想方法与技巧】1、在列联表中,越小,说明两个分类变量之间关系越弱;越大,说明两个分类变量之间关系越强.2、(1)制作列联表时要注意表中相关数据的位置及对应,避免出错;(2)作的列联表的独立性检验时,要求表中的个数据都要大于,因此,在选取样本容量时一定要注意.高考链接13.某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)(2)(3)锻炼人次空气质量等级(优)(良)(轻度污染)(中度污染)分别估计该市一天的空气质量等级为,,,的概率.求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).若某天的空气质量等级为或,则称这天“空气质量好”;若某天的空气质量等级为或,则称这天“空气质量不好”.根据所给数据,完成下面的列联表;并根据列联表,判断是否有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次人次空气质量好空气质量不好附:.第一种生产方式第二种生产方式14.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取名工人,将他们随机分成两组,每组人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)绘制了如下茎叶图:(1)(2)(3)根据茎叶图判断哪种生产方式的效率更高?并说明理由.求名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式根据()中的列联表,能否有的把握认为两种生产方式的效率有差异?附:,(1)(2)(3)15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取个网箱,测量各箱水产品的产量(单位:),其频率直方图如下:频率组距箱产量旧养殖法频率组距箱产量新养殖法附:.设两种养殖方法的箱产量相互独立,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率.填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关.箱产量箱产量旧养殖法新养殖法根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到).方法应用(1)(2)(3)16.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区名患者的相关信息,得到如下表格:潜伏期(单位:天)人数求这名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表).该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天潜伏期天总计岁以上(含岁)岁以下总计附:,其中.以这名患者的潜伏期超过天的频率,代替该地区名患者潜伏期超过天发生的概率,每名患者的潜伏期是否超过天相互独立.为了深入研究,该研究团队随机调查了名患者,其中潜伏期超过天的人数最有可能(即概率最大)是多少?17.为了提高生产效益,某企业引进了一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取件产品进行质量检测,所有产品质量指标值均在以内,规定质量指标值大于的产品为优质品,质量指标值在的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标值如频数分布表所示.(1)(2)(3)频率组距质量指标值质量指标值频数合计请分别估计新、旧设备所生产的产品的优质品率.优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有的把握认为“产品质量高与新设备有关”.非优质品优质品合计新设备产品旧设备产品合计附:,其中.用频率代替概率,从新设备所生产的产品中随机抽取件产品,其中优质品数为件,求的分布列及数学期望.18.冬天的北方室外温度极低,若轻薄保暖的石墨烯发热膜能用在衣服上,可爱的医务工作者行动会更方便,石墨烯发热膜的制作:从石墨中分离出石墨烯,制成石墨烯发热膜,从石墨分离石墨烯的一(1)(2)种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶,现在有材料,材料供选择,研究人员对附着在材料,材料上再结晶各做了次试验,得到如下等高条形图.材料试验结果材料试验结果石墨烯再结晶试验试验成功试验失败根据上面的等高条形图,填写如下列联表,判断是否有的把握认为试验成功与材料有关.材料材料合计成功不成功合计研究人员得到石墨烯后,再制作石墨烯发热膜有三个环节:①透明基底及胶层,②石墨烯层,③表面封装层,第一,二环节生产合格的概率均为,第三个环节生产合格的概率为,且各生产环节相互独立,已知生产吨的石墨烯发热膜的固定成本为万元,若生产不合格还需进行修复,第三个环节的修复费用为元,其余环节修复费用均为元.如何定价,才能实现每生产吨石墨烯发热膜获利可达万元以上的目标.附:参考公式:,其中.19.由团中央学校部、全国学联秘书处、中国青年报社共同举办的年度全国“最美中学生”寻访活动结果出炉啦,此项活动于年月启动,面向全国中学在校学生,通过投票方式寻访一批在热爱祖国、勤奋学习、热心助人、见义勇为等方面表现突出、自觉树立和践行社会主义核心价值观的“最美中学生”.现随机抽取了名学生的票数,绘成如图所示的茎叶图,若规定票数在票以上(包括票)定义为风华组.票数在票以下(不包括票)的学生定义为青春组.(1)(2)(3)在这名学生中,青春组学生中有男生人,风华组学生中有女生人,试问有没有的把握认为票数分在青春组或风华组与性别有关.如果用分层抽样的方法从青春组和风华组中抽取人,再从这人中随机抽取人,那么至少有人在青春组的概率是多少?用样本估计总体,把频率作为概率,若从该地区所有的中学(人数很多)中随机选取人,用表示所选人中青春组的人数,试写出的分布列,并求出的数学期望.附:;其中,独立性检验临界表:(1)(2)(3)20.为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行宣传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,这为正式普查提供了宝贵的试点经验.在某普查小区,共有家企事业单位,家个体经营户,普查情况如下表所示:普查对象类型顺利不顺利合计企事业单位个体经营户合计写出选择个国家综合试点地区采用的抽样方法.根据列联表判断是否有的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.以频率作为概率,某普查小组从该小区随机选择家企事业单位,家个体经营户作为普查对象,入户登记顺利的对象数记为,写出的分布列,并求的期望值.附:.(1)(2)(3)21.黄冈市有很多名优土特产,黄冈市的蕲春县就有闻名于世的“蕲春四宝”(蕲竹、蕲艾、蕲蛇、蕲龟),很多人慕名而来旅游,通过随机询问名不同性别的游客在购买“蕲春四宝”时是否在来蕲春县之前就知道“蕲春四宝”,得到如下列联表:男女总计事先知道“蕲春四宝”事先不知道“蕲春四宝”总计附:.写出列联表中各字母代表的数字.由以上列联表判断,能否在犯错误的概率不超过的前提下认为购买“蕲春四宝”和是否“事先知道’蕲春四宝’有关系”?从被询问的名事先知道“蕲春四宝”的顾客中随机选取名顾客,求抽到的女顾客人数的分布列及其数学期望.(1)22.在一次爱心捐款活动中,小李为了了解捐款数额是否和居民自身的经济收入有关,随机调查了某地区的个捐款居民每月平均的经济收入.在捐款超过元的居民中,每月平均的经济收入没有达到元的有个,达到元的有个;在捐款不超过元的居民中,每月平均的经济收入没有达到元的有个.参考数据当时,无充分证据判定变量,有关联,可以认为两变量无关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联.附:,其中.在下图表格空白处填写正确数字,并说明是否有以上的把握认为捐款数额是否超过元和居民每月平均的经济收入是否达到元有关?每月平均经济收入达到元每月平均经济收入没有达到元合计捐款超过元 捐款不超过元(2)合计将上述调查所得到的频率视为概率.现在从该地区大量居民中,采用随机抽样方法每次抽取个居民,共抽取次,记被抽取的个居民中经济收入达到元的人数为,求和期望的值.(1)(2)23.2016年月日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在岁之间的人进行调查,某机构随机抽取了在之间的人进行调查,经统计“青少年”与“中老年”的人数之比为.根据已知条件完成下面的列联表,并判断能否有的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.关注不关注合计青少年中老年合计现从抽取的青少年中采取分层抽样的办法选取人进行问卷调查,在这人中再选取人进行面对面询问,记选取的人中关注“国际教育信息化大会”的人数为,求的分布列及数学期望.附:参考公式:,其中.临界值表:(1)(2)24.为了研究家用轿车在高速公路上的车速情况,交通部门对名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在名男性驾驶员中,平均车速超过的有人,不超过的有人.在名女性驾驶员中,平均车速超过的有人,不超过的有人.完成下面的列联表,并判断是否有的把握认为平均车速超过的人与性别有关.平均车速超过人数平均车速不超过人数合计男性驾驶员人数 女性驾驶员人数合计以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取辆,记这辆车中驾驶员为男性且车速超过的车辆数为,若每次抽取的结果是相互独立的,求的分布列和数学期望.参考公式与数据:,其中,对服务满意对服务不满意合计对商品满意 对商品不满意合计(1)(2)25.近年来,我国电子商务蓬勃发展.年“”期间,某网购平台的销售业绩高达亿元人民币,与此同时,相关管理部门推出了针对该网购平台的商品和服务的评价系统.从该评价系统中选出次成功交易,并对其评价进行统计,网购者对商品的满意率为,对服务的满意率为,其中对商品和服务都满意的交易为次.根据已知条件完成下面的列联表,并回答能否有的把握认为“网购者对商品满意与对服务满意之间有关系”?若将频率视为概率,某人在该网购平台上进行的次购物中,设对商品和服务都满意的次数为随机变量,求的分布列和数学期望.附:(其中为样本容量)26.万众瞩目的第届全国冬季运动运会(简称“十四冬”)于年月日在呼伦贝尔市盛大开幕,期间正值我市学校放寒假,寒假结束后,某校工会对全校名教职工在“十四冬”期间每天收看比赛转播的时间作了一次调查,得到如图频数分布直方图:。

正态分布回归分析独立性检验

正态分布回归分析独立性检验

正态分布回归分析独立性检验
在进行回归分析时,通常会假设误差项服从正态分布,是一个独立同分布的随机变量。

这个假设在很多情况下是合理的,特别是当样本容量较大时,中心极限定理保证了误差项的正态分布。

为了验证误差项是否满足正态分布的假设,我们可以利用正态分布的统计方法进行检验。

下面介绍两种常用的检验方法:基于直方图和基于正态概率图。

1.基于直方图的检验方法
基于直方图的检验方法通过绘制误差项的直方图,观察其分布形态是否接近正态分布。

具体步骤如下:
1)将残差(误差项)按照大小排序。

2)将排序后的残差分为k个区间,计算每个区间中的残差频数。

3)绘制直方图,观察残差分布是否近似于正态分布。

若直方图呈现钟型曲线,说明残差近似满足正态分布假设,否则不能满足正态分布假设。

2.基于正态概率图的检验方法
基于正态概率图的检验方法通过绘制误差项的正态概率图,观察其是否呈现近似直线的趋势。

1)将残差按照大小排序。

2)计算每个残差在正态分布下对应的累积概率。

3)绘制散点图,横坐标为残差的标准正态分位数,纵坐标为残差对应的累积概率。

4)观察散点图是否近似于一条直线。

若散点图近似直线,则说明残差近似满足正态分布假设,否则不能满足正态分布假设。

正态分布回归分析独立性检验的目的是验证回归模型中误差项是否满足正态分布的假设,如果不满足,则可能需要对模型进行修正,或者使用非参数回归模型等更适合的方法。

因此,对于从事回归分析的教师来说,熟练掌握正态分布回归分析独立性检验方法是非常重要的。

方法技巧专题25回归分析与独立性检验

方法技巧专题25回归分析与独立性检验

方法技巧专题25回归分析与独立性检验回归分析与独立性检验是统计学中常用的两种方法技巧。

本文将从基本概念、执行步骤、解析方法和实际应用等方面详细介绍回归分析与独立性检验。

一、回归分析回归分析是一种用来描述和解释变量之间相互关系的统计方法。

在回归分析中,一个或多个自变量被用来预测或解释一个或多个因变量。

基本概念包括以下几点:1. 自变量(independent variable):研究者控制和操作的变量,用来预测因变量。

2. 因变量(dependent variable):研究者感兴趣的变量,也是我们希望预测或解释的变量。

3. 简单线性回归(simple linear regression):只有一个自变量和一个因变量之间的关系。

4. 多元回归(multiple regression):有两个或两个以上自变量和一个因变量之间的关系。

执行步骤如下:1.收集数据:收集自变量和因变量的数据。

2.绘制散点图:绘制自变量和因变量之间的散点图,观察两个变量之间的关系。

3.拟合回归线:通过回归线拟合数据,找到自变量和因变量之间的最佳关系。

4.计算回归方程:根据回归线的拟合情况,计算出回归方程,用来预测或解释因变量。

常用解析方法有以下几种:1.最小二乘法:通过最小化实际观测值与回归方程预测值之间的误差平方和,来确定回归方程的参数。

2. 相关系数(correlation coefficient):用来衡量自变量和因变量之间的线性相关性强弱,常用Pearson相关系数进行计算。

3.回归方程显著性检验:用来判断回归方程是否显著,即自变量是否对因变量有显著影响。

二、独立性检验独立性检验是用来检验两个或多个分类变量之间是否存在相关性的统计方法。

基本概念包括以下几点:1. 分类变量(categorical variable):变量的取值只能是一些有限的标称级别,而不能用具体的数值表示。

2. 单变量独立性检验(univariate independence test):只包括一个分类变量和一个因变量的关系。

相关性、最小二乘估计、回归分析与独立性检验

相关性、最小二乘估计、回归分析与独立性检验

【例1】关于人体的脂肪含量(百分比)和年龄关系的研究中, 得到如下一组数据:
年龄 23 27 39 41 45 49 50 51 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 含量 判断它们是否有相关关系.
【解题指南】判断有无相关关系,一种常用的简便方法就是绘 制散点图. 【规范解答】本题涉及两个变量:年龄与脂肪含量,可以以年 龄为自变量,考查脂肪含量的变化趋势,分析相关关系通常借 助散点图.
高(x) 60
62 64 65
66 67
68
70 72 74
儿子身 63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 高(y)
①画出散点图,说明变量y与x的相关性;
②如果y与x之间具有线性相关关系,求线性回归方程.
(已知:
2
x=66.8,y=67.01,x
【即时应用】
(1)由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回 归直线方程y=a+bx,判断下面说法是否正确.(请在括号内打
“√”或“×”)
①任何一组观测值都能得到具有代表意义的回归直线方程;
()
②直线y=a+bx至少经过点(x1,y1),(x2,y2),…,(xn,yn)
(2)x与y的增长速度之比即约为回归方程的斜率的倒数
1 10 5 . 4.4 44 22
答案:(1)①× ②× ③√ ④√ (2)
5
22
3.独立性检验
(1)2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,
A2= A1 ;变量B:B1,B2= B1,通过观察得到如表所示的数据:

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
(2)相关关系:这是一种非确定性关系,①两个变量中一个为可控制变量,另一个为 随机变量,例如施肥量是可控制变量,而农作物的产量是随机变量。②两个变量均为随机变
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1

回归分析与独立性检验

回归分析与独立性检验

5
6
190
200
68.1 71.3
12939 14260
11
12
250
260
86.4 89.7
21600 23322
返回目录
x = 205, y = 72.6
∑ ∑ 12
12
x
2 i
= 518 600,
yi2 = 54 572.94,
i =1
i =1
∑12
xi yi = 182 943
i=1
r=
182943 -12× 205×72.6
返回目录
5.列联表
假设有两个分类变量X和Y,它们的值域分别为{x1,x2} 和{y1,yHale Waihona Puke },其样本频数列联表为y1
y2
总计
x1
a
b
a+b
x2
c
d
总计 a+c
b+d
c+d a+b+c+d
此表称为2×2列联表. 根据观测数据计算由公式
K2
=
(a
+
n(ad - bc)2 b)(c + d)(a + c)(b
回归分析与独立性检验
1.随机误差
由于所有的样本点不共线,而只是散布在某一条直
线的附近,实际上,y=bx+a+e,e是y与 yˆ=bx+a之间
的误差.通常e为随机变量,称为随机误差,它的均值
E(e)=0,方差D(e)=σ2>0.这样线性回归模型的完整表
达式为
{ y=bx+a+e E(e)=0,D(e)=σ2
返回目录

回归分析与独立性检验

回归分析与独立性检验

回归分析的基本思想及其初步应用(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。

一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。

建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。

4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。

可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。

这种由于模型近似所引起的误差包含在中。

(2)忽略了某些因素的影响。

影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。

回归分析与独立性检验复习

回归分析与独立性检验复习

yˆ bˆx aˆ
n
__
^
xi yi n x y
b i1 n
_2
xi2 n x
i 1
aˆ Y bˆX
3、样本点中心:______________
回归直线与样本点中心的关系是?
回归直线过样本点中心
4、散点图:表示具有相关关系的两个变量的 一组数据的图形。它可直观判断两变量的关系 是否是线性关系。
(4)E(e) _0______,D(e) 2 __>___ 0
8、残差
(1)残差
对于样本点(xi,yi)(i=1,2,…,n)n的随机误2 差的估计值e^i _e_i __y_i___y_i__
称为相应于点(xi,yi)的残差,__i_1__y_i __yi___称为残差平方和.
有 _正___的线性相关关系。
6、回归分析:对具有_相__关__关__系_的两个变量进行 统计分析的方法。
7、线性回归模型: y bx a e
其中bx+a是确定性函数,x是___解__释_变量 e 是随__机__误__差_,y是_预__报__变_量__
注:e产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
(2)残差图
利用图形来分析残差特性,作图时纵坐标为_残__差_,横坐标可以
选为_样__本__编__号_,也可用其他测量值,这样作出的图称为残差图.
n
2
(3) R2
1
i1 n
yi yi
2
,R2越接近于_1_,表示回归效果越好.
yi y
i1残差平方和
回归平方和
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。

相关文档
最新文档