第9章 直线相关与回归
第九章 直线相关与回归
第九章直线相关与回归[例9.1] 测得某地15名正常成年男子的身高X/cm、体重Y/kg如表1,试计算X和Y之间的相关系数r。
解:在SPSS中可以计算Pearson相关系数。
操作如下:一、操作:Analysis->Correlate->Bivariate用鼠标选中变量X和Y,然后选入右侧,选择Pearson相关系数,操作完毕如下图:二、结果见下:SPSS给出相关系数交叉表,可以看出X和Y的相关系数为0.599,p=0.000。
可以认为X和Y线性相关,并且有统计意义。
[例9.2] 为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽3名男孩,共抽18名男孩。
资料列于表2。
解:本题需要计算回归方程式,在SPSS中可以直接菜单完成。
操作如下:一、操作:Analysis->Regression->Linear用鼠标选中变量X和Y,分别选入自变量和应变量对话框,操作完毕如下图:二、主要结果见下首先给出方差分析表,由p=0.000,可以认为回归模型有统计意义。
根据回归系数得到回归方程式为:Y=75.363+6.257X。
由p=0.000,可以认为回归系数有统计意义。
[例9.3] 调查了某地区10个乡的钉螺密度与血吸虫感染率/%数据如表3。
试分析该地区螺密度与感染率之间有无相关关系?解:本题选用Spearman秩相关,在SPSS中操作如下:一、操作:Analysis->Correlate->Bivariate用鼠标选中变量X和Y,分别选入右侧对话框,并且选择Spearman相关系数,操作完毕如下图:二、主要结果见下:可见Spearman相关系数为0.817,p=0.004。
可以认为Spearman相关系数有统计意义。
统计学原理第九章(相关与回归)习题答案
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
9 第九章 回归与相关
估计。
一)、加权最小二乘估计 假定各观测值的权重为Wi,求解回归方 程就要使得以下加权后的残差平方和最小
ss残W Wi Yi aw bw X
2
bw
aW
WX WY WXY W l l WX WX W WY b WX Y b W
二、直线回归方程的求法 直线方程为: a为Y轴上的截距;b为斜率,表示X 每改变一个单位,Y的变化的值,称为回 归系数; 表示在X值处Y的总体均数 估计值。为求a和b两系数,根据数学上 的最小二乘法原理,可导出a和b的算式 如下:
例9-1 某地方病研究所调查了8名正常 儿童的尿肌酐含量(mmol/24h)如表91。估计尿肌酐含量(Y)对其年龄(X) 的关系。
表14,rs界值表,P<0.01,故可认为当地居 民死因的构成和各种死因导致的潜在工作损 失年数WYPLL的构成呈正相关。 二、相同秩次较多时rs的校正 当X及Y中,相同秩次个数多时,宜用下式校 正
第四节
加权直线回归
在一些情况下,根据专业知识考虑 并结合实际数据,某些观察值对于估计 回归方程显得更“重要”,而有些不 “重要”,此时可以采用加权最小二乘
lYY的分析 如图9-4,p点的纵坐标被回归直线与均数 截成三个线段:
图9-4
平方和划分示意图
第一段 第二段
第三段
上述三段代数和为:
移项:
p点是散点图中任取一点,将所有的点子都
按上法处理,并将等式两端平方后再求和,
则有:
它们各自的自由度分别为: 可计算统计量F:
SS回 SS 残
2
F
回 残
表9-3某省1995年到1999年居民死因构成与WYPLL构成
统计学第9章 相关分析和回归分析
回归模型的类型
回归模型
一元回归
线性回归
10 - 28
多元回归
线性回归 非线性回归
非线性回归
统计学
STATISTICS (第二版)
一元线性回归模型
10 - 29
统计学
STATISTICS (第二版)
一元线性回归
1. 涉及一个自变量的回归 2. 因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量 (dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变 量称为自变量 (independent variable) ,用 x 表示
统计学
STATISTICS (第二版)
3.相关分析主要是描述两个变量之间线性关 系的密切程度;回归分析不仅可以揭示 变量 x 对变量 y 的影响大小,还可以由 回归方程进行预测和控制 4.回归系数与相关系数的符号是一样的,但 是回归系数是有单位的,相关系数是没 有单位的。
10 - 27
统计学
STATISTICS (第二版)
10 - 19
统计学
STATISTICS (第二版)
相关系数的经验解释
1. 2. 3. 4.
|r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 0.3|r|<0.5时,视为低度相关 |r|<0.3时,说明两个变量之间的相关程度 极弱,可视为不相关
10 - 20
10 - 6
统计学
STATISTICS (第二版)
函数关系
(几个例子)
某种商品的销售额 y 与销售量 x 之间的关系 可表示为 y = px (p 为单价)
直线相关与直线回归
案例二:医学研究
总结词
医学研究中,利用直线相关和回归分析探究疾病与危险因素之间的关系。
详细描述
在医学研究中,直线相关和回归分析常被用于研究疾病与危险因素之间的关系。 例如,通过分析吸烟、饮酒、饮食等危险因素与肺癌发病率之间的关系,可以 建立线性模型,从而为预防和治疗提供依据。
案例三:农业研究
总结词
通过假设检验的方法,检验两个变量之间是否存在显著的线性关系。常用的假设检验方法 包括t检验、F检验等。
直线相关系数
直线相关系数是用来量化两个变量之间线性关 系的强度和方向的一个数值,其取值范围为-1 到1。
相关系数的值为1表示完全正相关,值为-1表示 完全负相关,值为0表示无直线相关。
相关系数的绝对值越大,说明两个变量之间的 线性关系越强。
直线相关结果通常以相关系数和散点图等 形式呈现,而直线回归结果则以回归方程 、系数表和预测值等形式呈现。
联系
理论基础
直线相关和回归都基于线性关 系假设,即两个变量之间存在
一条直线的趋势。
应用场景
在某些情况下,直线相关和回 归可以相互转换,例如当一个 变量是另一个变量的函数时。
相互支持
在数据分析过程中,可以先进 行直线相关分析,再基于相关 系数进行直线回归分析,或者 反之。
结果解释
在某些情况下,直线相关和回 归的结果可能相似或一致,例 如当两个变量之间的线性关系
很强时。
04
直线相关与回归的应用
经济预测
预测市场趋势
通过分析历史数据,利用直线相关或回归分析来预测市场趋势, 如股票价格、商品需求等。
评估经济政策效果
通过分析政策实施前后的经济数据,利用直线相关或回归分析来评 估政策效果,为政策制定提供依据。
西南财经大学向蓉美、王青华《统计学》第三版——第9章:相关与回归分析
相关关系(例)
▪ 单位成本(y)与产量(x) 的关系…… ▪ 父亲身高(y)与子女身高(x)之间的关系 ▪ 社会商品零售额(y)与居民可支配收入(x)之
间的关系 ▪ 收入 (y)与文化程度(x)之间的关系 ▪ 商品销售量(y)与广告费支出(x1)、价格(x2)
之间的关系 ▪ 需要PPT配套视频,请加VX:1033604968
简单相关系数(简单线性相关系数) 对两个变量(定量变量)之间线性相关程 度的度量。 也称直线相关系数, 常简称相关系数。
等级相关(秩相关)
对两个定序变量之间线性相关程度的度量。
9--19
相关系数(Pearson’s
correlation coefficient)
有总体相关系数与样本相关系数之分:
• 总体相关系数ρ
变量间的相互依存关系有 两种类型:
——函数关系 ——相关关系
9--3
函数关系
1. 指变量之间确定性的数量依存关系;
2. 当变量 x 取某个数值时,
y 有确定的值与之对应, 则称 y 是 x 的函数 y = f
(x)
• 通常将作为变动原因的变 量 x 称为自变量,作为变
Y
动结果的变量y 称为因变量
将两个变量成对的观测数据在坐标图上标示出来, 变量 x 的值为横坐标,另一个变量 y 对应的数值 为纵坐标,一对观测值对应一个点,样本数据若 有n 对观测值,则相应的 n 个点形成的图形就称为 散点图。
如果一个是解释变量另一个是被解释变量,则通常 将解释变量放在横轴。
有助于分析者判断相关的有无、方向、形态、密 切程度。
9--5
相关关系
1. 指变量间数量上不确定的依存关系;
2. 一个变量的取值不能唯一地由 另一个变量来确定。当变量 x 取某个值时,与之相关的 变量 y 的取值可能有若干个 (按某种规律在一定范围内
第九章 相关与回归分析
第9章相关与回归分析【教学内容】相关分析与回归分析是两种既有区别又有联系的统计分析方法。
本章阐述了相关关系的概念与特点;相关关系与函数关系的区别与联系;相关关系的种类;相关关系的测定方法(直线相关系数的含义、计算方法与运用);回归分析的概念与特点;回归直线方程的求解及其精确度的评价;估计标准误差的计算。
【教学目标】1、了解相关与回归分析的概念、特点和相关分析与回归分析的区别与联系;2、掌握相关分析的定性和定量分析方法;3、掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。
【教学重、难点】1、相关分析与回归分析的概念、特点、区别与联系;2、相关与回归分析的有关计算公式和应用条件。
第一节相关分析的一般问题一、相关关系的概念与特点(一)相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,表现在数量上也存在着一定的联系。
这种数量上的联系和关系究其实质,可以概括为两种不同类型,即函数关系与相关关系。
相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。
例如,商品销售额与流通费用率之间的关系就是一种相关关系。
(二)相关关系的特点1、相关关系表现为数量相互依存关系。
2、相关关系在数量上表现为非确定性的相互依存关系。
二、相关关系的种类1、相关关系按变量的多少,可分为单相关和复相关2、相关关系从表现形态上划分,可分为直线相关和曲线相关3、相关关系从变动方向上划分,可分为正相关和负相关4、按相关的密切程度分,可分为完全相关、不完全相关和不相关三、相关分析的内容相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。
其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。
相关分析的内容和程序是:(1)判别现象间有无相关关系(2)判定相关关系的表现形态和密切程度第二节相关关系的判断与分析一、相关关系的一般判断(一)定性分析对现象进行定性分析,就是根据现象之间的本质联系和质的规定性,运用理论知识、专业知识、实际经验来进行判断和分析。
医学科研中的统计方法(第九章)直线相关与回归
例9.1某地测量十二名健康儿童头发中的硒含量与 血中的硒含量,其结果如表9.1所示:
编号 发硒 血硒
ห้องสมุดไป่ตู้
X
1
2 3 4
X2
5505.64
4435.56 7885.44 4830.25
Y
13.5
10.5 13.8 11.0
Y2
182.25
110.25 190.44 121.00
XY
1001.70
699.30 1225.44 764.50
f X X f
2
x
X
2
f X f
x
2
(264.625) 2 [875.641 ] 11.12 81
f Y Y f Y
2 y y
2
f Y f
y
2
(627.25) 2 [4919 .08 ] 61.76 81
医学科研中的统计方法
第九章
直线相关与回归
第一节 线性相关
一、相关(correlation)的意义 在医学上,所研究的两个事物或现象之间, 既存在着密切的数量关系,但是,又不象函数关 系那样,能以一个变量的数值精确(特例除外) 地求出另一个变量的数值。 这种事物或现象之间的关系称为相关关系, 简称相关。
73.5 64.8 78.6
3457.44
5402.25 4199.04 6177.96
5.8
10.0 7.6 11.5
33.64
100.00 57.76 132.25
2
341.04
735.00 492.48 903.90
EG0901
X
901.9
第9章直线回归与相关分析(田间试验与统计分析 四川农业大学)
解正规方程组,得:
田间试验与统计分析
Field Experiment and Statistical Analysis
协同变异的大小和性质
均积
协方差
Copyright © 2019 Sichuan Agricultural University All Rights Reserved Producer:Dr. Liu Yongjian
1、作散点图
(月/日)
y, 5/30 20
一
代 三
5/25
15
化
螟 5/20 10
盛
发
期 5/15
5
田间试验与统计分析
Field Experiment and Statistical Analysis
5/10
0
yˆ 48.5485 1.0996x
5/5
-5
29
34
39
44
49
x,3月下旬至4月中旬平均温度累计值
Copyright © 2019 Sichuan Agricultural University All Rights Reserved Producer:Dr. Liu Yongjian
田间试验与统计分析
Field Experiment and Statistical Analysis
相关变量间的关系
田间试验与统计分析
田间试验与统计分析
Field Experiment and Statistical Analysis
图9-1 (x,y)散点图
Copyright © 2019 Sichuan Agricultural University All Rights Reserved Producer:Dr. Liu Yongjian
(临床医学)第9章直线相关与回归
04
02 直线相关
直线相关的概念
直线相关是指两个变量之间存在一种线性关系,即当一个变量发生变化时,另一个变量也会按照一定 的方向和强度发生变化。
直线相关可以用相关系数r来表示,r的取值范围为-1到1,r值为正表示正相关,r值为负表示负相关,r值 为0表示无相关。
直线相关的类型
研究非线性关系,即因变量和自变量之间的 关系不是直线关系。
多元线性回归
研究于研究分类因变量的概率预测,常用于二 元分类问题。
回归分析的应用场景
预测模型
通过回归分析建立预测模型,根据已知的自 变量预测未来的因变量值。
病因研究
在医学和流行病学中,回归分析用于研究疾 病发生的危险因素和病因。
响。
学习曲线回归分析,掌握非线 性关系的建模方法。
结合实际案例,实践应用回归 分析解决实际问题。
关注回归分析的最新研究进展 ,提高自己的统计素养。
THANKS FOR WATCHING
感谢您的观看
01
02
03
正相关
当一个变量增加时,另一 个变量也相应增加,呈正 向变化趋势。
负相关
当一个变量增加时,另一 个变量减少,呈反向变化 趋势。
无相关
两个变量之间不存在线性 关系。
直线相关的应用场景
流行病学研究
通过分析疾病发病率与环境因素之间的直 线相关关系,了解疾病发生的原因和机制。
生物统计学
在生物统计学中,直线相关分析被广泛应 用于基因与表型、环境因素与健康状况等
05 案例研究
案例一:心血管疾病与年龄、血压的关系
总结词
心血管疾病与年龄、血压存在显著相关性,年龄越大、血压越高,心血管疾病风险越高。
统计学中直线相关与回归的区别与联系
统计学中直线相关与回归的区别与联系在统计学中,直线相关和回归是两个相关的概念,但又有一些区别和联系。
区别:
1. 定义:直线相关是指两个变量之间的线性关系,即随着一个变量的增加,另一个变量也以一定的比例增加或减少。
回归分析是一种统计方法,用于建立一个或多个自变量与因变量之间的关系模型。
2. 目的:直线相关主要关注变量之间的关系和相关程度,通过相关系数来衡量。
而回归分析旨在通过建立数学模型来预测或解释因变量的变化,以及评估自变量对因变量的影响。
3. 变量角色:在直线相关中,两个变量没有明确的自变量和因变量的区分,它们之间的关系是对称的。
而在回归分析中,通常有一个或多个自变量作为预测因变量的因素。
联系:
1. 线性关系:直线相关和回归分析都假设变量之间存在线性关系,即可以用直线或线性模型来描述它们之间的关系。
2. 相关系数:直线相关中使用相关系数来度量变量之间的相关程度。
回归分析中也使用相关系数,但更多地关注回归模型的参数估计和显著性检验。
3. 数据分析:直线相关和回归分析都是常用的数据分析方法,在实际应用中经常同时使用。
直线相关可以帮助我们了解变量之间的关系和趋势,而回归分析可以进一步建立模型和进行预测。
总之,直线相关和回归分析是统计学中两个相关但又有区别的概念。
直线相关关注变量之间的线性关系和相关程度,而回归分析则更关注建立模型和预测变量之间的关系。
在实际应用中,它们常常相互补充使用,以帮助我们理解和解释数据。
(整理)统计学原理第九章相关与回归习题答案
第九章相关与回归一.判断题部分题目1:负相关指的是因素标志与结果标志的数量变动方向是下降的。
()答案:×题目2:相关系数为+1时,说明两变量完全相关;相关系数为-1时,说明两个变量不相关。
()答案:√题目3:只有当相关系数接近+1时,才能说明两变量之间存在高度相关关系。
()答案:×题目4:若变量x的值增加时,变量y的值也增加,说明x与y之间存在正相关关系;若变量x的值减少时,y变量的值也减少,说明x与y之间存在负相关关系。
()答案:×题目5:回归系数和相关系数都可以用来判断现象之间相关的密切程度。
()答案:×题目6:根据建立的直线回归方程,不能判断出两个变量之间相关的密切程度。
()答案:√题目7:回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()答案:×题目8:在任何相关条件下,都可以用相关系数说明变量之间相关的密切程度。
()答案:×题目9:产品产量随生产用固定资产价值的减少而减少,说明两个变量之间存在正相关关系。
()答案:√题目10:计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()答案:×题目11:完全相关即是函数关系,其相关系数为±1。
()答案:√题目12:估计标准误是说明回归方程代表性大小的统计分析指标,指标数值越大,说明回归方程的代表性越高。
()答案×二.单项选择题部分题目1:当自变量的数值确定后,因变量的数值也随之完全确定,这种关系属于()。
A.相关关系B.函数关系C.回归关系D.随机关系答案:B题目2:现象之间的相互关系可以归纳为两种类型,即()。
A.相关关系和函数关系B.相关关系和因果关系C.相关关系和随机关系D.函数关系和因果关系答案:A题目3:在相关分析中,要求相关的两变量()。
A.都是随机的B.都不是随机变量C.因变量是随机变量D.自变量是随机变量答案:A题目4:测定变量之间相关密切程度的指标是()。
直线相关与回归分析的区别和联系
直线相关与回归分析的区别和联系
1、区别
(1)资料要求不同相关要求两个变量是双变量正态分布;回归要求因变量Y服从正态分
布,而自变量X是能精确测量和严格控制的变量。
(2)统计意义不同相关反映两量变间的伴随关系,这种关系是相互的、对等的,不一定
有因果关系;回归则反映两变量间的依存关系,有自变量和因变量之分,一般将“因”
或较易测定、变异较小者定为自变量。
这种依存关系可能是因果关系,也可能是从属关系。
(3)分析目的不同相关分析的目的是把两变量间直线关系的密切程度及方向用一统计
指标表示出来;回归分析的目的则是把自变量与因变量的关系用函数公式定量表达出来。
2、联系
(1)变量间关系的方向一致对同一资料,其r与b的正负号一致。
(2)假设检验等价对同一样本,而这的概率值相同
(3)r与b值可相互转换。
(4)用回归解释相关相关系数的平方成为决定系数,是回归平方和与总的离均差平均和之比,故回归平方和是引入相关变量后总平方和减少的部分,其大小取决
于r2。
回归平方和越接近总平方和,则r2越接近1,说明引入相关的效果越好;
反之,则说明引入相关的效果不好或意义不大。
第 1 页共1 页。
第九章 相关与回归分析 《统计学原理》PPT课件
[公式9—4]
r xy n • xy
x y
[公式9—5]
返回到内容提要
第三节 回归分析的一般问题
一、回归分析的概念与特点
(一)回归分析的概念
现象之间的相关关系,虽然不是严格 的函数关系,但现象之间的一般关系值, 可以通过函数关系的近似表达式来反映, 这种表达式根据相关现象的实际对应资料, 运用数学的方法来建立,这类数学方法称 回归分析。
单相关是指两个变量间的相关关系,如 自变量x和因变量y的关系。
复相关是指多个自变量与因变量间的相关 关系。
(二)相关关系从表现形态上划分,可分为 直线相关和曲线相关
直线相关是指两个变量的对应取值在坐标 图中大致呈一条直线。
曲线相关是指两个变量的对应取值在坐 标图中大致呈一条曲线,如抛物线、指数曲线、 双曲线等。
0.578
a y b x 80 0.578 185 3.844
n
n7
7
yˆ 3.844 0.578x
二、估计标准误差 (一)估计标准误差的概念与计算 估计标准误差是用来说明回归直线方程 代表性大小的统计分析指标。其计算公式为:
Syx
y yˆ 2
n
[公式9—8]
实践中,在已知直线回归方程的情况下, 通常用下面的简便公式计算估计标准误差:
[例9—2] 根据相关系数的简捷公式计算有:
r
n xy x y
n x2 x2 n y2 y2
7 218018580
0.978
7 5003 1852 7 954 802
再求回归直线方程:
yˆ a bx
b
n xy x y
n x2 x2
7 2180 18580 7 50031852
直线相关与回归分析
第九章:直线回归依变量y 的实际观测值总是带有随机误差,因而依变量y 的实际观测值yi 可用自变量x 的实际观测值xi 表示为:i i i x y εβα++= (i=1,2, …, n)x 为可以观测的一般变量(也可以是可以观测的随机变量); y 为可以观测的随机变量;i 为相互独立,且都服从N (0,σ2)的随机变量。
在x 、y 直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x 与y 的直线关系,这条直线称为回归直线。
设回归直线的方程为: bx a y +=ˆ ( 其中,a 是α的估计值,b 是β的估计值。
)xxy SS SPx x y y x x n x x n y x xy b =---=--=∑∑∑∑∑∑∑222)())((/)(/))((x b y a -=式中的分子是自变量x 的离均差与依变量y 的离均差的乘积和))((∑--y y x x ,简称乘积和,记作xySP ,分母是自变量x 的离均差平方和∑-2)(x x ,记作SS X,a 叫做样本回归截距,是回归直线与y 轴交点的纵坐标,当x=0时,y ˆ=a ;b 叫做样本回归系数,表示x 改变一个单位,y 平均改变的数量;b 的符号反映了x 影响y 的性质,b 的绝对值大小反映了x 影响y 的程度; yˆ叫做回归估计值,是当x 在在其研究范围内取某一个值时,y 值平均数x βα+的估计值。
例题:在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g )与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。
表8-1 四川白鹅雏鹅重与70日龄重测定结果 (单位:g )1、作散点图 以雏鹅重(x )为横坐标,70日龄重(y )为纵坐标作散点图,见图8-3。
2、计算回归截距a ,回归系数b ,建立直线回归方程,首先根据实际观测值计算出下列数据:5.9812/1182/===∑n x x 8333.272012/32650/===∑n y y()()00.168512/1182118112/222=-=∑-=∑n x x SS x00.36585123265011823252610))((=⨯-=-=∑∑∑ny x xy SP xy()()67.83149112/3265089666700/222=-=∑-=∑n y y SS y 进而计算出b 、a : 7122.2100.168536585===xxy SS SP b1816.5825.987122.218333.2720=⨯-=-=x b y a得到四川白鹅的70日龄重y 对雏鹅重x 的直线回归方程为:x y7122.211816.582ˆ+= 二、直线回归的偏离度估计偏差平方和2)ˆ(∑-yy 的大小表示了实测点与回归直线偏离的程度,因而偏差平方和又称为离回归平方和。
第九章 直线回归与相关分析
ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 2.1603 = 13.7782 ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 24.3508
第三节 直线相关
一、相关系数和决定系数 如果两个变量间呈线性关系,又不需要由x来估计 如果两个变量间呈线性关系,又不需要由 来估计 y,只需了 和y相关以及相关的性质,可通过计算 相关以及相关的性质, ,只需了x和 相关以及相关的性质 x和y相关程度和性质的统计数-相关系数来进行 相关程度和性质的统计数- 和 相关程度和性质的统计数 研究。 研究。 相关系数r为 相关系数 为: SP
ˆ L1 = y − t0.05 s y = 19.0645 − 2.447 × 0.8559 = 16.9701 ˆ ˆ L2 = y + t0.05 s y = 19.0645 + 2.447 × 0.8559 = 21.1589 ˆ
(四)单个y值的置信区间
单个y观测值的标准误为: 单个 观测值的标准误为: 观测值的标准误为
2
ˆ L1 = y − t a s y ˆ ˆ L2 = y + t a s y ˆ
根据例1,估计出黏虫孵化历期平均温度为 ℃ 根据例 ,估计出黏虫孵化历期平均温度为15℃时, 历期天数为多少( 置信区间)。 历期天数为多少(取95%置信区间)。 置信区间
x = 15 df = n − 2 = 8 − 2 = 6 ˆ y = a + bx = 57.04 + (−2.5317) × 15 = 19.0645 sy = sy / x ˆ 1 ( x − x )2 1 (15 − 16.8375) 2 + = 1.9835 × + = 0.8559 n SS x 8 55.1788
医学统计学-直线相关与回归
病例号
血糖
胰岛素
i
YI
Xi
1
12.21
15.2
2
14.54
16.7
3
12.27
11.9
4
12.04
14.0
5
7.88
19.8
6
11.10
16.2
7
10.43
17.0
8
13.32
10.3
9
19.59
5.9
10
9.05
18.7
i
Yi
Xi
11
6.44
25.1
12
9.49
16.4
13
10.16
22.0
14
8.38
年龄-身高; 肺活量-体重; 药物剂量-动物死亡率
双变量资料
统计资料
单变量资料:X 双变量资料:X,Y 多变量资料:X1,X2,…,XK,Y
3
相关与回归是研究两个或多个变量之间相互关系的
一种分析方法。
数据结构
编号
Y
1
2
n
X1
……
XK
4
概念:
回归:是研究变量之间在数量上依存关系的一种 方法。
相关:是研究随机变量之间相互联系密切程度和 方向的方法。
23.1
5
7.88
19.8
15
8.49
23.2
6
11.10
16.2
16
7.71
25.0
7
10.43
17.0
17
11.38
16.8
8
13.32
10.3
18
10.82
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章双变量回归与相关环境与公共卫生学院叶晓蕾20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.7 11 6.44 25.112 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4资料特点:每个观察对象有两个变量。
概念类似上例的问题:年龄-身高;肺活量-体重;药物剂量-动物死亡率双变量资料统计资料单变量资料:X双变量资料:X,Y多变量资料:X1,X2,…,XK,Y相关与回归是研究两个或多个变量之间相互关系的一种分析方法。
数据结构编号Y X1 (X)K1 2n概念:回归:是研究变量之间在数量上依存关系的一种方法。
相关:是研究随机变量之间相互联系密切程度和方向的方法。
直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回归和相关分析中最简单的一种。
又称简单相关和回归。
直线相关与回归的一般步骤:绘制散点图直线相关分析直线回归分析求相关系数相关系数假设检验结论求回归系数和截距列出回归方程回归系数假设检验一、直线回归(linear regression )1. 直线回归方程:应变量Y 的平均估计值a :截距(intercept )b :回归系数(regression coefficient )bXa Y +=ˆY ˆbXa Y +=注意直线回归方程与函数方程的不同应用条件线性(l inear)、独立性(i ndependent)、正态性(n ormal)、等方差(e qual variance)——“LINE”。
线性——自变量与应变量的关系是线性的。
用散点图判断。
独立性——任意两个观察值互相独立。
正态性——在任意的自变量X的取值处,应变量y均服从正态分布。
等方差——在任意的自变量X的取值处,应变量y的20名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值病例号血糖胰岛素i Y I X i 病例号血糖胰岛素i Y i X i1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.7 11 6.44 25.112 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4例1SPSS 20名糖尿病人的血糖水平与胰岛素水平的散点图回归直线的求法原理(最小二乘法)()∑为最小即 Y ˆ-Y2各散点距离回归直线的纵向距离(残差)平方和为最小而得到直线。
计算:()()()()()()XXXY l l n X X n Y X XY X X Y Y X X b =--=---=∑∑∑∑∑∑∑222()()()()()()()()∑∑∑∑∑∑∑∑∑∑-=--=-=-=-=-=nY X XY Y Y X X l nY Y Y Y l n X X X X l XYYY XX222222回归直线必通过点()Y, X Xb Y a -=Coefficients a18.796 1.26514.862.000-.459.070-.840-6.562.000(Constant)xModel 1B Std. ErrorUnstandardized CoefficientsBetaStandardized Coefficientst Sig.Dependent Variable: ya. XY 459.0796.18ˆ-=3. 直线回归的假设检验即推断总体回归系数(β)是否为零即:SS =SS +SS 222)ˆ()ˆ()(∑∑∑-+-=-Y Y Y Y Y Y )ˆ()ˆ()(Y Y Y YY Y -+-=-——剩余或残差(residual)YˆY -(1)方差分析查附表3,F 0.01(1,18)=8.28P< 0.01(2)t检验t= (b -0)/ sb ν=n -2211 2-=-===-==n SS SS SS l lSS n l SS xx xyyy 剩余回归总剩余回归回归总总ννν06.43189482.4717032.114====剩回剩剩回回MS MS SS SS F νν0699.0582.5456638.2===XXb l MS S 剩余t=(-0.4585 -0)/0.0699 = - 6.56 = 18,t0.01(18)= 2.878P < 0.01F = t2=(-6.56)2= 43.03ANOVA b114.7031114.70343.060.000a47.94818 2.664162.65119Regression Residual TotalModel 1Sum of SquaresdfMean SquareF Sig.Predictors: (Constant), x a. Dependent Variable: yb. Coefficients a18.796 1.26514.862.000-.459.070-.840-6.562.000(Constant)xModel 1B Std. ErrorUnstandardized CoefficientsBetaStandardized Coefficientst Sig.Dependent Variable: ya.4. 直线回归中的区间估计(1)总体回归系数β的区间估计:bn S t b )2(,-±α例:上例中,b=-0.4585,S b =0.0699,t 0.05,18=2.101∴β的95%可信区间:6054.0~3116.00699.0101.24585.0--=⨯±-Coefficients a18.796 1.26514.862.00016.13921.453-.459.070-.840-6.562.000-.605-.312(Constant)xModel 1B Std.Error Unstandardized CoefficientsBetaStandardized Coefficients t Sig.Lower Bound Upper Bound 95% Confidence Intervalfor B Dependent Variable: ya.(2)的估计:XYμ即总体中当X 为某定值X 0的条件下Y 的均数。
⎪⎪⎭⎫⎝⎛-+=-+=±ναXX XX XY Y Y l X X n MS l X X n S S S t Y 2020.ˆˆ,)(1)(1ˆ剩余Y ˆμ())/(3996.058.54533.17152016638.2101.2)/(9182.11154585.07957.18ˆ2ˆ18,05.0L mmol S t L mmol Y Y =⎪⎪⎭⎫⎝⎛-+===⨯-=Y S t Y ˆ18,05.0ˆ±即:11.918±2.101×0.3396= ( 11.08, 12.76 )例:用例1所求直线回归方程,试计算当X 0= 15 mU/L时,的95%可信区间。
X Y μ的(1-α)可信区间图XYμYS t Y ˆ,ˆνα±(3)个体Y 值的预测区间(容许区间):即总体中当X 为某定值X 0时,个体Y 值的波动范围。
⎪⎪⎭⎫⎝⎛-++=-++=±XX XX xy Y Y l X X n MS l X X n S S S t Y 22.,)(11)(11ˆ剩余να注意:S Y 并非是样本观察值Y 的标准差个体Y值的(1-α)容许区间图例:例1中,当X=15,求个体Y 值的预测区间(α=0.05)。
()15.448), 388.8(6803.1101.2918.116803.158.54533.171520116638.22=⨯±=⎪⎪⎭⎫ ⎝⎛-++=Y S5. 直线回归方程的应用(1)预测:即把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计。
1)点预测:2)区间预测:区间预测:当X 是已知时,按一定概率估计应变量所在范围。
可按求个体Y 值预测区间方法计算。
⎪⎪⎭⎫⎝⎛-++=±ναXX Y Yl X X n MS S S t Y 2,)(11ˆ剩余例:例1资料中,当胰岛素浓度X=15mU/L 时,试估计血糖浓度(α=0.05)。
()15.448), 388.8(6803.1101.2918.116803.158.54533.171520116638.2S 2Y =⨯±=⎪⎪⎭⎫⎝⎛-++=(2)控制:指当要求应变量Y在一定范围内波动时,如何控制自变量X的取值。
例:已知血糖正常范围为(4.44~6.66 mmol/L),在前例资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内( =0.05)?解得:X (33.95,38.79)mU/L6638.2101.2)4585.07961.18(ˆ66.66638.2101.2)4585.07961.18(ˆ44.418,05.018,05.0⨯+-=+>⨯--=-<X S t Y X S t Y Y Y二、直线相关(linear correlation)1. 相关系数(ρ, r)表示两变量直线相关的密切程度和方向。
相关系数波动范围:-1 ≤r ≤1(1)密切程度:|r| →1,相关越密切;|r| →0,相关越弱。
r=1或-1,称完全相关;r=0,称零相关,表示不存在直线相关关系,但不排除存在某种曲线关系的可能性。
(2)方向:2. 相关分析的步骤(1)绘制散点图观察两变量间是否呈直线趋势20名糖尿病人的血糖水平与胰岛素水平的散点(2)计算相关系数计算例1资料的相关系数YYXX XY l l l r ⋅=8398.06514.16258.54516.250-=⨯-=r Pearson 相关系数积差法相关系数3. 相关系数的假设检验例1 资料:H 0:ρ= 0 ;H 1:ρ≠0;α=0.05查表得:P< 0.01 (结果同回归系数检验)2-n 122122=--=---=νρr n r n r r t ()56.68398.012208398.01222-=----=--=r n r t t 检验查表法:P.719 r 界值表。