高考数学-统计案例-1-回归分析的基本思想及其初步应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专项-统计案例
3.1回归分析的基本思想及其初步应用
知识点
1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性.
2.线性回归方程:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,其方程称为线性回归方程.
记回归直线方程为:a bx y +=,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.未知参数
b 和a 的最小二乘法估计分别为b
ˆ和a ˆ,给定一组数据()()()n n y x y x y x ,,........,,,2211,则a ˆ与b ˆ的计算公式为:()()()
∑∑∑∑====--=
---=n
i i n
i i
i n
i i
n
i i
i
x
n x y
x n y x x x y
y
x x b
1
2
2
1
1
2
1
ˆ,x b y a
ˆˆ-=,其中∑∑====n
i i n i i y n
y x n
x 1
1
1,1,从而a bx +的估计表示为a x b y
ˆˆˆ+=. 3.相关关系的强弱:
(1)相关系数:给定一组数据()()()n n y x y x y x ,,........,,,2211,则变量间线性相关系数r 的计算公式为:
()()
()()
∑∑∑∑∑∑======---=
----=
n
i n
i i i n
i i
i n
i i
n
i i
n
i i
i
y n y x n x y
x n y
x y
y
x x y
y
x x r 1
1
2
22
21
1
2
1
2
1)
)((
(2)相关系数和相关程度:
r
两个变量的变化趋势 线性相关关系
10≤<r 同增或者同减 正相关()
0ˆ>b 01<≤-r
一个变量增,另一个变量减
负相关(
)
0ˆ<b
0=r
无规律
不相关
当75.0≥r 时,通常认为两个变量有较强的线性关系. 4. 随机误差
线性回归模型⎩
⎪⎨
⎪⎧
y =bx +a +e ,
E e =0,D e =σ2
,其中a ,b 为模型的未知参数,通常e 为随机变量,称为随机误
差.x 称为解释变量,y 称为预报变量.
3.残差分析
(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^
i 称为相应于点(x i ,y i )的残差.残差平方和()∑=-n
i i
y
y
1
2
ˆ越小,模型拟合效果越好
(2)残差图:作图时纵坐标为残差,横坐标为样本编号,或i x 的数据,或i y 的数据,这样做出的图形称为残差图
4.相关指数:R 2=1-∑n
i =1 (y i -y ^
i )2
∑n i =1 (y i -y )2
.,相关指数的值越大,模型的拟合效果越好.
注 建立回归模型的基本步骤
1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程). 4.按一定规则(如最小二乘法)估计回归方程中的参数.
5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
题型一 求线性回归方程
【例1】某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^
=b ^
x +a ^
; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
⎝ ⎛⎭
⎪⎪⎫
相关公式:b ^
=∑i =1
n
x i y i
-n x ·y ∑i =1
n
x 2
i
-n x 2
,a ^
=y -b ^
x
【过关练习】
1.假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计数据:
由此资料可知y 对x 呈线性相关关系. (1)求线性回归方程;
(2)求使用年限为10年时,该设备的维修费用为多少?
题型二 线性回归分析
【例1】在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:
求出y 对x 的线性回归方程,并说明拟合效果的程度.
【过关练习】
1.关于x 与y 有如下数据:
有如下的两个线性模型:(1)y ^
=6.5x +17.5;(2)y ^
=7x +17.试比较哪一个拟合效果更好.
题型二 非线性回归分析
【例1】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中w i =x i ,w =18∑i =
1
8
w i .
(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为
β^
=
∑i =1
n
(u i -u )(v i -v )
∑i =1
n
(u i -u )2
,α^=v -β^
u .
【过关练习】
在一次抽样调查中测得样本的5个样本点,数值如下表:
试建立y与x之间的回归方程.
课后练习
【补救练习】
1.设有一个回归方程为y ^
=2-2.5x ,则变量x 增加一个单位时,( ) A .y 平均增加2.5个单位 B .y 平均增加2个单位 C .y 平均减少2.5个单位
D .y 平均减少2个单位
2.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:
则y 对x A.y ^
=x -1 B.y ^
=x +1 C.y ^
=88+12
x
D.y ^
=176 4.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )
A .r 2<r 1<0
B .0<r 2<r 1
C .r 2<0<r 1
D .r 2=r 1
5.关于残差图的描述错误的是( ) A .残差图的横坐标可以是样本编号
B .残差图的横坐标也可以是解释变量或预报变量
C .残差点分布的带状区域的宽度越窄相关指数越小
D .残差点分布的带状区域的宽度越窄残差平方和越小
6.如图311四个散点图中,适合用线性回归模型拟合的两个变量的是________(填序号).
图311
. 【巩固练习】
7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^
=0.67x +54.9.
8.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________.
9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
(1)求回归直线方程y =b x +a ,其中b =-20,a =y -b x ;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
10.在一段时间内,某淘宝网店一种商品的销售价格x 元和日销售量y 件之间的一组数据为:
求出y 关于x 参考数据:∑i =1
5
x i y i =3 992,∑i =1
5
x 2i =1 660.
【拔高练习】
1.如图312,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )
图3-1-2
A .相关系数r 变大
B .残差平方和变大
C .相关指数R 2变大
D .解释变量x 与预报变量y 的相关性变强 2.已知x 与y 之间的几组数据如下表:
假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y ′=b ′x +a ′,则以下结论正确的是( )
A.b ^>b ′,a ^
>a ′ B.b ^>b ′,a ^
<a ′ C.b ^<b ′,a ^
>a ′
D.b ^<b ′,a ^
<a ′
3.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R 2与残差平方和Q (a ^,b ^
)如下表:
则能体现A ,B
4.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
由表中数据算出线性回归方程y=b x+a中的b=-2,样本中心点为(10,38).
(1)表中数据m=__________.
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.
5.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
图313
表中w i =x i ,w ]=1
8
∑ i =1w i .
(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分
别为β^=
∑n
i =1 (u i -u )(v i -v )
∑n
i =1 (u i -u )2
,α^=v -β^
u。