第十五章直线相关与直线回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
19
1.根据原始数据做散点图,从图中各点的分 布情况看,血液药物浓度Y随唾液药物浓度 X增加而增加的趋势。 2.计算相关系数 (1)计算基础数据根据原始数据求得
X 43.9
Y=143.4
XY 568.1
X =174.5
2
Y =1873.0
2
20
r
[ X
2
XY X Y / n X / n][ Y Y
33
直线回归的定义
分析两个变量X、Y之间确切的定量关系,建 立一个方程式,从而可由X变量的大小推算出 Y变量的估计值。 直线回归就是用来描述一个变量如何依赖于 另一个变量。
34
回归方程
直线回归的任务就是要找出一个变量随另一 个变量变化的直线方程,我们把这个直线方 程叫做直线回归方程。
a bX Y
2
2
LXY L XY .LYY
2
Lxx X X
L yy Y Y
Lxy
X
2
2 2
2
X
n
2
Y
Y
n
X Y X X Y Y XY
n
16
r 的计算结果:
说明了两个变量X与Y之间关联的密切程度 (绝对值大小)与关联的性质(正负 号)。
31
为了通过可测或易测的变量对未知或难测或 不可测量的状态进行估计,可以借助回归分 析。 例如:我们可以用身高、体重、肺活量这些 容易测得的指标来估计心室血输出量、体循 环总血量等相对难测的指标;通过对产妇的 尿雌三醇含量的检测来估计腹中胎儿体重, 以便采取必要的措施降低生产过程的难产风 险。
37
a bX 是 最适合的直线, 要使 Y 必须满足下列条件:
(1)直线上方各点离回归线的距离(以平行于Y轴 计算)之和与直线下方各点离回归线的距离之和 绝对值相等,但方向相反,因此:
38
2 为最 y y (2)此直线是使得误差平方和
小值的直线,即因变量的实际观察值y与理 论值 y 之差的平方和取最小值。 对于每一个x值来说,它所对应实际的y值, 与估计的 y 值往往会存在差异,这个差异 就是用估计 y 值来代替实际y值所产生的误 差,即 y y 误差,误差越小越好,由于理 为最 y y 论上 y y 0 ,因此要把 小值的直线当作回归直线是很困难的。一个 最佳且能表达同样目的的方法,那就是将此 直线定义为使得误差平方和为最小值的直线。 这个方法称为最小二乘法。
27
前面我们讨论了12名癫痫病人的唾液药物 浓度和血液药物浓度之间的关系,知道了 二者之间成正相关。那么,如果我们知道 了一位癫痫病人的唾液药物浓度,能推断 出血液药物浓度的大小吗?或血液药物浓 度可能在什么范围内呢?还有,唾液药物 浓度和血液药物浓度。那么,体重每增加1 微克,血液药物浓度增加多少呢?上面的 相关关系分析不能提供给我们需要的答案。 这些要用直线回归的方法来解决。
6
第一节 直 线 相 关 分 析
Linear Correlation
7
1.直线相关概念
概念:描述和推断两个(事件、现象)正态 变量(x、y)总的变化趋势上协同变化规律性 的密切程度和方向(但又非确定的函数关系) 的统计分析方法。 协同变化:同增同减,此增彼减
8
2.直线相关的特点:
两变量同时进入数据分析; 两变量不区别为原因变量和结果变量,
关分析方法去研究这种关系。可以 研究两个变量之间的相互关系的密 切程度和变化趋势,并用恰当的统 计指标表达。
4
2.一个变量对另外一个变量有着某 种依存关系
例如儿子的身高与父亲的身高有着某种
依存关系,可以用回归分析的方法去研 究这种关系,即把两个变量间的数量依 存关系用函数形式表示出来,用一个或 多个变量去推测另一个变量的估计值和 波动范围,这就是回归分析。
是一种互为因果的数量协同变化关系; 变量类型:两变量应同时满足正态分布 的条件(实际工作中近似正态分布)。
9
相关分析
1.图示法:有无相关、相关程度、相关方向
2相关系数:在求相关系数前,最好先做图。
10
相关分析:无自变量、因变量、地位平等。
Hale Waihona Puke Baidu
回归分析:有自变量、因变量,两者从属关 系。
11
绘制散点图
2
39
根据最小二乘法原理,a 和 b的计算公式
a Y bX
Lxy Lxx
b
X X Y Y = X X
2
40
Lxy为离均差积和,Lxx为x的离均差平方和
三、直线回归分析的方法步骤与作图
例15-2 根据例15-1的资料以唾液药物浓度 作自变量X,以血药物浓度作应变量Y,进行 直线回归分析,并作出回归直线。 具体过程见书P269
2 2
2
/ n]
568.19 43.9 143.4 / 12 0.9256 2 2 [174.51 43.9 / 12][1873 .04 143.4 / 12]
21
(3)直 线 相 关 系 数 的 假 设 检 验
上例中的相关系数r等于0. 9256,说明了12名癫痫病人的唾
22
对相关系数的假设检验,常用t检验,选用统计 量t的计算公式如下:
t r 0 r 1 r2 n2
=n-2
sr
n2 r 1 r2
23
(1)建立假设 H0 : =0 ,即X与Y间无直线相关关系 H1 : ≠0 , 即X与Y间有直线相关关系 (2)确定检验水准:=0.05 (3)确定单双测检验:本例选择双测检验 (4)计算t值: r n2 r=0.9256, n=12, 代入公式 t r 2
值的应变量Y与直线回归方程估计值的差 值服从正态分布 适用于两变量数量协同变化关系密切的 情况,否则回归估计误差过大,无应用 价值。
36
直线回归分析的意义
可以用来较准确描述两变量的定量关系;
可以在一定自变量变化线性范围内由自
变量预报应变量值, 给定应变量的控制限值,利用直线方程 寻找自变量的控制限值。
32
(1) 当我们知道了两个变量之间有直线相关关系, 并且一个变量的变化会引起另一个变量的变化,这 时,如果它们之间存在准确、严格的关系,它们的 变化可用函数方程来表示,叫它们是函数关系,它 们之间的关系式叫函数方程。 (2)但在实际生活当中,由于其它因素的干扰, 许多双变量之间的关系并不是严格的函数关系,不 能用函数方程反映,为了区别于两变量间的函数方 程,我们称这种关系式为直线回归方程,这种关系 为直线回归.
液药物浓度与血液药物浓度之间存在相关关系。但是,这12
名癫痫病人只是总体中的一个样本,由此得到的相关系数会 存在抽样误差。
因为,总体相关系数()为零时,由于抽样误差,从总体 抽出的12例,其r可能不等于零。所以,要判断该样本的r是 否有意义,需与总体相关系数=0进行比较,看两者的差别 有无统计学意义。这就要对r进行假设检验,判断r不等于零 是由于抽样误差所致,还是两个变量之间确实存在相关关系。
28
五、直线相关分析的注意点
作直线相关分析时,应结合散点图来判断两 变量的数量协同变化关系是否呈直线关系, 避免将某些曲线关系误判为直线关系; 应该注意假相关情况; 当两变量均明显不呈正态分布时,最好采用 秩相关统计分析方法计算秩相关系数。
29
30
“回归”一词的来由
“回归”一词最早由Golton在一项有关父亲与 儿子身高的研究中提出。儿子的身高(Y)与 父亲的身高(X)自然是相关的,他发现身材 高大的父亲所生儿子的高度不少要比其父亲 矮,而身材矮小的父亲所生的儿子不少要比 其父亲高;也就是说,无论是身材高还是身 材矮的父亲所生儿子的身高有向人群的平均 身高“回归”的趋势,这就是“回归”的生 物学内涵。后来人们借助“回归”一词来描 述通过自变量的数值预测反应变量的平均水 平。
某君喜得贵子,庭前种一小树,每月测子高 与树高,积累了数据。统计计算发现,子高 与树高具有相关性,难道两者真有内在联系? 原来子高与树高均与日俱增,时间变量与两 者得潜在联系,造成了子高与树高的虚假联 系。
25
相关关系与因果关系是一回事吗?
相关关系可能是: (1)两个变量之间存在依存因果关系,如由 于遗传的原因,子女的身高数值的大小在很 大程度上取决于父母的身高。
5
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。用水平 轴X上的数代表父亲身高, 垂直轴Y上的数代表儿子 的身高,1078个点所形成 的图形是一个散点图。它 的形状象一块橄榄状的云, 中间的点密集,边沿的点 稀少,其主要部分是一个 椭圆。
1
学 习 目 标
1.说出直线相关与直线回归的概念; 2.说出等级相关的适用范围; 3.能计算直线相关系数与回归系数、
进行假设检验; 4.能从专业角度考虑相关与回归的实 际意义。
2
两个变量之间的关系大致分为两种:
3
1.两个变量共同变化的,是一种 相互依赖的关系
例如身高与体重的关系。可以用相
41
例16-3
某研究人员采用不同剂量山莨菪碱测得小白 鼠的扩瞳指数,试分析山莨菪碱和扩瞳指数 之间的回归关系。
(2)两个变量之间存在相互的伴随关系,如 “蛙鸣而燕至”,虽然年年如此,但蛙鸣永 远也不能成为燕至的原因。
26
直线相关的应用
相关是研究两个变量间的相互关系,而且这种 相互关系是用相关系数反应的。在确实存在相关 关系的前提下,如果r的绝对值越大,说明两个 变量之间的关联程度越强,那么,已知一个变量 对预测另一个变量越有帮助;如果r绝对值越小, 则说明两个变量之间的关系越弱,一个变量的信 息对猜测另一个变量的值无多大帮助。 一般说来,当样本量较大(n>100),并对r 进行假设检验,有统计学意义时,r的绝对值大 于0.7,则表示两个变量高度相关;r的绝对值大 于0.4,小于等于0.7时,则表示两个变量之间中 度相关;r的绝对值大于0.2,小于等于0.4时, 则两个变量低度相关。
12
3、相关的类型
★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
13
一、直线相关统计量
14
相 关 系 数 及 意 义
相关系数:相关系数是用以衡量两个变量线 形相关有无、强弱与方向的统计指标。 总体参数: 样本相关系数:r
15
相关系数的计算公式
r
X-X Y Y X X . Y Y
17
相关系数的特点:
r是无量刚的统计量;-1<r<1 r可正可负(正表正相关,负表负相关); r=0 零相关(无线性相关) r 的大小表示相关的程度,越接近1,表相 关性越好,越接近0,表相关性越差。
18
二、直线相关系数的计算
例15-1
某医师研究12名癫痫病人口 服鲁米那后两小时唾液药物浓度与 血液药物浓度之间的数量关系。试 计算两种体液药物浓度间的直线相 关关系。
1 -r
=n-2=12-2=10 t=7.73,查t值表P436, t 0.05(10) 2.228
上述计算t=7.73>2.228,由t所推断的P值小于0.05,按 =0.05水准拒绝H0 ,接受H1, r为正值,说明唾液 药物浓度与血液药物浓度存在正相关关系。
24
相关一定有内在联系吗?
分析研究两个变量x与y之间的关系时,两个 变量的值可视为直角坐标系的一个点。为直 观地判断两个变量间的关系,可把每对(x,y) 变量值在直角坐标系标点出来,此为散点图。 若一个变量x由小到大(或由大变小),则另 一变量相应地由小到大(或由大到小),两 个变量的散点图呈直线趋势,可称这种现象 为共变。
:是由自变量X推算应变量Y的估计值(读作Y hat) Y
a:是回归直线在Y 轴上的截距,即X=0时的Y值; b:为样本的回归系数,即回归直线的斜率,表示当X
变动一个单位时,Y平均变动b个单位。
35
直线回归分析的特点:
两变量同时进入数据分析;
两变量必须区分为自变量X和应变量Y;
要求应变量Y为正态分布,或对应同一X
1.根据原始数据做散点图,从图中各点的分 布情况看,血液药物浓度Y随唾液药物浓度 X增加而增加的趋势。 2.计算相关系数 (1)计算基础数据根据原始数据求得
X 43.9
Y=143.4
XY 568.1
X =174.5
2
Y =1873.0
2
20
r
[ X
2
XY X Y / n X / n][ Y Y
33
直线回归的定义
分析两个变量X、Y之间确切的定量关系,建 立一个方程式,从而可由X变量的大小推算出 Y变量的估计值。 直线回归就是用来描述一个变量如何依赖于 另一个变量。
34
回归方程
直线回归的任务就是要找出一个变量随另一 个变量变化的直线方程,我们把这个直线方 程叫做直线回归方程。
a bX Y
2
2
LXY L XY .LYY
2
Lxx X X
L yy Y Y
Lxy
X
2
2 2
2
X
n
2
Y
Y
n
X Y X X Y Y XY
n
16
r 的计算结果:
说明了两个变量X与Y之间关联的密切程度 (绝对值大小)与关联的性质(正负 号)。
31
为了通过可测或易测的变量对未知或难测或 不可测量的状态进行估计,可以借助回归分 析。 例如:我们可以用身高、体重、肺活量这些 容易测得的指标来估计心室血输出量、体循 环总血量等相对难测的指标;通过对产妇的 尿雌三醇含量的检测来估计腹中胎儿体重, 以便采取必要的措施降低生产过程的难产风 险。
37
a bX 是 最适合的直线, 要使 Y 必须满足下列条件:
(1)直线上方各点离回归线的距离(以平行于Y轴 计算)之和与直线下方各点离回归线的距离之和 绝对值相等,但方向相反,因此:
38
2 为最 y y (2)此直线是使得误差平方和
小值的直线,即因变量的实际观察值y与理 论值 y 之差的平方和取最小值。 对于每一个x值来说,它所对应实际的y值, 与估计的 y 值往往会存在差异,这个差异 就是用估计 y 值来代替实际y值所产生的误 差,即 y y 误差,误差越小越好,由于理 为最 y y 论上 y y 0 ,因此要把 小值的直线当作回归直线是很困难的。一个 最佳且能表达同样目的的方法,那就是将此 直线定义为使得误差平方和为最小值的直线。 这个方法称为最小二乘法。
27
前面我们讨论了12名癫痫病人的唾液药物 浓度和血液药物浓度之间的关系,知道了 二者之间成正相关。那么,如果我们知道 了一位癫痫病人的唾液药物浓度,能推断 出血液药物浓度的大小吗?或血液药物浓 度可能在什么范围内呢?还有,唾液药物 浓度和血液药物浓度。那么,体重每增加1 微克,血液药物浓度增加多少呢?上面的 相关关系分析不能提供给我们需要的答案。 这些要用直线回归的方法来解决。
6
第一节 直 线 相 关 分 析
Linear Correlation
7
1.直线相关概念
概念:描述和推断两个(事件、现象)正态 变量(x、y)总的变化趋势上协同变化规律性 的密切程度和方向(但又非确定的函数关系) 的统计分析方法。 协同变化:同增同减,此增彼减
8
2.直线相关的特点:
两变量同时进入数据分析; 两变量不区别为原因变量和结果变量,
关分析方法去研究这种关系。可以 研究两个变量之间的相互关系的密 切程度和变化趋势,并用恰当的统 计指标表达。
4
2.一个变量对另外一个变量有着某 种依存关系
例如儿子的身高与父亲的身高有着某种
依存关系,可以用回归分析的方法去研 究这种关系,即把两个变量间的数量依 存关系用函数形式表示出来,用一个或 多个变量去推测另一个变量的估计值和 波动范围,这就是回归分析。
是一种互为因果的数量协同变化关系; 变量类型:两变量应同时满足正态分布 的条件(实际工作中近似正态分布)。
9
相关分析
1.图示法:有无相关、相关程度、相关方向
2相关系数:在求相关系数前,最好先做图。
10
相关分析:无自变量、因变量、地位平等。
Hale Waihona Puke Baidu
回归分析:有自变量、因变量,两者从属关 系。
11
绘制散点图
2
39
根据最小二乘法原理,a 和 b的计算公式
a Y bX
Lxy Lxx
b
X X Y Y = X X
2
40
Lxy为离均差积和,Lxx为x的离均差平方和
三、直线回归分析的方法步骤与作图
例15-2 根据例15-1的资料以唾液药物浓度 作自变量X,以血药物浓度作应变量Y,进行 直线回归分析,并作出回归直线。 具体过程见书P269
2 2
2
/ n]
568.19 43.9 143.4 / 12 0.9256 2 2 [174.51 43.9 / 12][1873 .04 143.4 / 12]
21
(3)直 线 相 关 系 数 的 假 设 检 验
上例中的相关系数r等于0. 9256,说明了12名癫痫病人的唾
22
对相关系数的假设检验,常用t检验,选用统计 量t的计算公式如下:
t r 0 r 1 r2 n2
=n-2
sr
n2 r 1 r2
23
(1)建立假设 H0 : =0 ,即X与Y间无直线相关关系 H1 : ≠0 , 即X与Y间有直线相关关系 (2)确定检验水准:=0.05 (3)确定单双测检验:本例选择双测检验 (4)计算t值: r n2 r=0.9256, n=12, 代入公式 t r 2
值的应变量Y与直线回归方程估计值的差 值服从正态分布 适用于两变量数量协同变化关系密切的 情况,否则回归估计误差过大,无应用 价值。
36
直线回归分析的意义
可以用来较准确描述两变量的定量关系;
可以在一定自变量变化线性范围内由自
变量预报应变量值, 给定应变量的控制限值,利用直线方程 寻找自变量的控制限值。
32
(1) 当我们知道了两个变量之间有直线相关关系, 并且一个变量的变化会引起另一个变量的变化,这 时,如果它们之间存在准确、严格的关系,它们的 变化可用函数方程来表示,叫它们是函数关系,它 们之间的关系式叫函数方程。 (2)但在实际生活当中,由于其它因素的干扰, 许多双变量之间的关系并不是严格的函数关系,不 能用函数方程反映,为了区别于两变量间的函数方 程,我们称这种关系式为直线回归方程,这种关系 为直线回归.
液药物浓度与血液药物浓度之间存在相关关系。但是,这12
名癫痫病人只是总体中的一个样本,由此得到的相关系数会 存在抽样误差。
因为,总体相关系数()为零时,由于抽样误差,从总体 抽出的12例,其r可能不等于零。所以,要判断该样本的r是 否有意义,需与总体相关系数=0进行比较,看两者的差别 有无统计学意义。这就要对r进行假设检验,判断r不等于零 是由于抽样误差所致,还是两个变量之间确实存在相关关系。
28
五、直线相关分析的注意点
作直线相关分析时,应结合散点图来判断两 变量的数量协同变化关系是否呈直线关系, 避免将某些曲线关系误判为直线关系; 应该注意假相关情况; 当两变量均明显不呈正态分布时,最好采用 秩相关统计分析方法计算秩相关系数。
29
30
“回归”一词的来由
“回归”一词最早由Golton在一项有关父亲与 儿子身高的研究中提出。儿子的身高(Y)与 父亲的身高(X)自然是相关的,他发现身材 高大的父亲所生儿子的高度不少要比其父亲 矮,而身材矮小的父亲所生的儿子不少要比 其父亲高;也就是说,无论是身材高还是身 材矮的父亲所生儿子的身高有向人群的平均 身高“回归”的趋势,这就是“回归”的生 物学内涵。后来人们借助“回归”一词来描 述通过自变量的数值预测反应变量的平均水 平。
某君喜得贵子,庭前种一小树,每月测子高 与树高,积累了数据。统计计算发现,子高 与树高具有相关性,难道两者真有内在联系? 原来子高与树高均与日俱增,时间变量与两 者得潜在联系,造成了子高与树高的虚假联 系。
25
相关关系与因果关系是一回事吗?
相关关系可能是: (1)两个变量之间存在依存因果关系,如由 于遗传的原因,子女的身高数值的大小在很 大程度上取决于父母的身高。
5
为了研究父亲与成年儿子 身高之间的关系,卡尔.皮 尔逊测量了1078对父子的 身高。把1078对数字表示 在坐标上,如图。用水平 轴X上的数代表父亲身高, 垂直轴Y上的数代表儿子 的身高,1078个点所形成 的图形是一个散点图。它 的形状象一块橄榄状的云, 中间的点密集,边沿的点 稀少,其主要部分是一个 椭圆。
1
学 习 目 标
1.说出直线相关与直线回归的概念; 2.说出等级相关的适用范围; 3.能计算直线相关系数与回归系数、
进行假设检验; 4.能从专业角度考虑相关与回归的实 际意义。
2
两个变量之间的关系大致分为两种:
3
1.两个变量共同变化的,是一种 相互依赖的关系
例如身高与体重的关系。可以用相
41
例16-3
某研究人员采用不同剂量山莨菪碱测得小白 鼠的扩瞳指数,试分析山莨菪碱和扩瞳指数 之间的回归关系。
(2)两个变量之间存在相互的伴随关系,如 “蛙鸣而燕至”,虽然年年如此,但蛙鸣永 远也不能成为燕至的原因。
26
直线相关的应用
相关是研究两个变量间的相互关系,而且这种 相互关系是用相关系数反应的。在确实存在相关 关系的前提下,如果r的绝对值越大,说明两个 变量之间的关联程度越强,那么,已知一个变量 对预测另一个变量越有帮助;如果r绝对值越小, 则说明两个变量之间的关系越弱,一个变量的信 息对猜测另一个变量的值无多大帮助。 一般说来,当样本量较大(n>100),并对r 进行假设检验,有统计学意义时,r的绝对值大 于0.7,则表示两个变量高度相关;r的绝对值大 于0.4,小于等于0.7时,则表示两个变量之间中 度相关;r的绝对值大于0.2,小于等于0.4时, 则两个变量低度相关。
12
3、相关的类型
★正相关 ★负相关 ★完全正相关 ★完全负相关 ★零相关
13
一、直线相关统计量
14
相 关 系 数 及 意 义
相关系数:相关系数是用以衡量两个变量线 形相关有无、强弱与方向的统计指标。 总体参数: 样本相关系数:r
15
相关系数的计算公式
r
X-X Y Y X X . Y Y
17
相关系数的特点:
r是无量刚的统计量;-1<r<1 r可正可负(正表正相关,负表负相关); r=0 零相关(无线性相关) r 的大小表示相关的程度,越接近1,表相 关性越好,越接近0,表相关性越差。
18
二、直线相关系数的计算
例15-1
某医师研究12名癫痫病人口 服鲁米那后两小时唾液药物浓度与 血液药物浓度之间的数量关系。试 计算两种体液药物浓度间的直线相 关关系。
1 -r
=n-2=12-2=10 t=7.73,查t值表P436, t 0.05(10) 2.228
上述计算t=7.73>2.228,由t所推断的P值小于0.05,按 =0.05水准拒绝H0 ,接受H1, r为正值,说明唾液 药物浓度与血液药物浓度存在正相关关系。
24
相关一定有内在联系吗?
分析研究两个变量x与y之间的关系时,两个 变量的值可视为直角坐标系的一个点。为直 观地判断两个变量间的关系,可把每对(x,y) 变量值在直角坐标系标点出来,此为散点图。 若一个变量x由小到大(或由大变小),则另 一变量相应地由小到大(或由大到小),两 个变量的散点图呈直线趋势,可称这种现象 为共变。
:是由自变量X推算应变量Y的估计值(读作Y hat) Y
a:是回归直线在Y 轴上的截距,即X=0时的Y值; b:为样本的回归系数,即回归直线的斜率,表示当X
变动一个单位时,Y平均变动b个单位。
35
直线回归分析的特点:
两变量同时进入数据分析;
两变量必须区分为自变量X和应变量Y;
要求应变量Y为正态分布,或对应同一X