变量间的相关关系讲义
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量间的相关关系讲义
一、基础知识梳理
知识点1:变量之间的相关关系
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系。
注意:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系。
点睛:两个变量相关关系与函数关系的区别和联系
相同点:两者均是两个变量之间的关系,不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
知识点2.散点图.
1.在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图。
2.从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合。
3.对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到由上角的区域内。
如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散步在从左上角到右下角的区域。
注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系。
点睛:散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。特点是能直观表现出影响因素和预测对象之间的总体关系趋势。优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度
知识点3:回归直线
(1)回归直线的定义
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
(2)回归直线的特征
如果能够求出这条回归直线的方程(简称回归方程),那么我们就可以比较清楚的了解对应两个变量之间的相关
性,就像平均数可以作为一个变量的数据的代表一样,这条直线也可以作为两个变量之间具有相关关系的代表。 (3)回归直线方程
一般地,设x 与y 是具有相关关系的两个变量,且相应n 组观测值的n 个点(x i ,y i )(i=1,2,…,n )大致分布在
一条直线的附近,求在整体上与这n 个点最接近的一条直线,设此直线方程为ˆy
bx a =+,这里的y 在上方加上“∧”是为了区分实际值y ,表示当x 取值x i ,y 相应的观察值y i 而直线上对应于x i ,的纵坐标是ˆy
bx a =+ 点睛:1)散点图中的点整体上分布在一条直线附近时,可以应用线性回归分析的方法分析数据;
2)回归直线是反映:“从整体上看,各点与此直线的距离的和最小”的一条直线,它反映了具有线性相关关系的两个变量之间的规律;
3)我们可以通过回归直线方程,由一个变量的值来推测另一个变量的值,解决生活中的实际问题;这种方法称为回归方法
知识点4:回归系数公式及相关问题
1.最小二乘法:求回归直线的关键是如何用数学的方法刻画从整体上看,各点与此直线的距离最小,假设我们已
经得到两个具有线性相关关系的变量的一组数据:11(,)x y 22(,)x y ……(,)n n x y 。当自变量x 取i x (i =1,2,……,n )时,可以得到ˆi y bx a =+(i =1,2,……,n ),它与实际收集到的i y 之间的偏差是ˆ()i i i i y y
y bx a -=-+(i =1,2,……,n )这样用n 个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。总的偏差为
1
ˆ()n
i
i
i y y
=-∑,偏差有正有负,易抵消,所以采用绝对值
1
ˆn
i
i i y
y
=-∑,由于带绝对值计算不方便所以换成平方,2
22221122331
ˆ()()()()()n
i i n n i Q y y
y bx a y bx a y bx a y bx a ==-=--+--+--+⋅⋅⋅+--∑①现在的问题就归结为:当a ,b 取什么值时Q 最小,即点到直线y=bx+a 的整体距离最小
1
122
21
1
()()()
n n
i
i
i i
i i n
n i
i i i x x y y x y nx y
b x x x nx
a y bx
====---=
=--=-∑∑∑∑②(其中11n i i x x n ==∑,1
1n i i y y n ==∑) 这种通过求①式的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法。 2.回归直线方程的求法
①先判断变量是否线性相关
②若线性相关,利用公式计算出a,b
③利用回归方程对生活实际问题进行分析与预测
注意:①线性回归直线方程中x 的系数是b ,常数项是a ,与直线的斜截式不大一样,
②如果散点图中的点分布从整体上看不在任何一条直线附近,这时求出的线性回归方程实用价值不大。
n 当a,b 使2221122()()...()n n Q y bx a y bx a y bx a =--+--++--取得最小值时,就称ˆy
bx a =+为拟合这n 对数据的线性回归方程,该方程所表示的直线称为回归直线
知识点5:线性回归分析思想在实际中的应用