生统计学第八版李晓松第十一章 直线相关与回归的推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卫生统计学
第十一章 直线相关与回归的推断
王 彤
山西医科大学
目录
01 第一节:直线相关系数的统计推断
02 05
第二节:直线回归的统计推断
重点难点
※ 总体相关系数的置信区间估计和相关系数的假设检验 ※ 总体回归系数的置信区间估计及回归方程的假设检验 ※ 回归中反应变量平均值的置信区间估计与个体值的预测区间估计 ※ 回归模型及其方差分析
在第二章骨关节炎评分OAP与粮食真菌DON含量的关系分析中,根据散
点图并结合专业上的考虑,可以依据一定的规则寻找一条潜在的直线来刻画两 变量之间的数量依存关系。简单直线回归模型假设y 的观测值服从一系列随解
释变量x而变化的正态分布,其连续变化的均值取决于x 值。
ei
第二节 直线回归的统计推断
(一)回归模型与参数解释
第一节 直线相关系数的统计推断
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计 1.总体相关系数 ρ
直线相关系数表示了两个变量之间直线关系的强度和方向,两变量无需区分 解释变量与反应变量。第二章我们基于样本数据介绍了样本相关系数,与之相对 应的参数即总体相关系数,用希腊字母ρ 表示。如ρ =0表示两变量间不存在直线 相关关系。在实际工作中,常用样本相关系数r估计总体相关系数 ρ。
2 2
10.0847 2.028 4.2524 = 1.4608, 18.7086
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
第二节 直线回归的统计推断
(五)应用条件
需满足:①反应变量与解释变量之间呈直线关系;②各观测值相互独立; ③解释变量固定时所对应反应变量服从条件正态分布;④不同解释变量取值下 反应变量的条件方差相等即方差齐。 统计模型是基于一系列假设条件下对客观现象的抽象化表示,独立、正态 分布、方差齐的若干解释变量的条件均数恰好在一条直线上就是直线回归模型 的基本假设。
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计 2.总体相关系数的置信区间估计
一般情况下(ρ≠0 时),r的抽样分布并不对称,无法利用正态分布理论对ρ 进行 统计推断。数理理论与蒙特卡罗模拟显示,按式(11-1)对r作变换后得到的 zr具有近似 正态性,可用于后续统计推断:
1 1 r zr ln( ) (11-1) 2 1 r
e 1 e 1 0.6233 2 zr 20.7304 e 1 e 1
2 zr 20.7304
e 1 e 1 21.3930 0.8838 2 zr e 1 e 1
2 zr
21.3930
因此, ρ的95%置信区间为(0.6233, 0.8838)。
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
如同其他统计量,样本相关系数不等于 0并不表示总体中两变量一定存在直线关系。 如图所示,从相关系数为0的总体中,随机抽样得到的一组样本,由于抽样误差的存在, 计算得到的样本相关系数 r=0.562,并不等于0。故基于样本计算出相关系数之后需对其总 体相关系数是否为0进行假设检验。
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
S y|x1 S yx
1 ( x1 x ) 1 (178.42 195.8221) 1 4.1970 1 4.2524 n lxx 38 1164923.114
小结
小结
3.直线回归的统计推断问题基于F分布,故需满足以下条件:①反应变量与解
释变量之间呈直线关系;②各观测值相互独立;③解释变量固定时所对应反应 变量服从条件正态分布;④不同解释变量取值下反应变量的条件方差相等,即
方差齐。这些条件可通过残差分析做出直观判断。
4.在直线回归模型基础上,可对反应变量平均值的置信区间和个体值的预测区 间估进行估计,但需注意两者的含义是不同的。 5.总体回归线的95%置信带与个体值y的95%预测带均由对称于回归线的弧形曲 线构成,后者比前者更远离回归线。
计算出所有x值对应y的总体均数的95%置信区间,以x为横坐标,y为纵坐标, 将置信区间的上下限分别连起来形成的两条弧形线间的区域,称为回归直线的置 信带(confidence band),见图11-6中离回归直线较近的两条弧线所确定的区域。
第二节 直线回归的统计推断
(三)反应变量平均值的置信区间
反应变量平均值 的置信带和反应变量个体值的预测带
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
变异来源 回归 残差 总变异
SS v MS F P 1027.2061 1 1027.2061 58.3155 <0.01 634.1264 36 17.6146 1661.3325 37
第二节 直线回归的统计推断
(三)反应变量平均值的置信区间
图4给出了两均数比较的分布示意图。 设结果变量的总体均数为 μ ,两组均数 分别为μ1 和 μ2,此时两组均数之差恰好 为回归方程中的β1。对于β1 是否不为0的 方差分析恰好就是两组均数是否不等的
假设检验。
用回归表示两均数比较的分布示意图
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
总体回归系数为0时随机抽样得到的某个样本
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
3.回归系数的方差分析
例2续 现用方差分析对例2的样本回归方程作假设检验。
(1) 建立检验假设,确定检验水准
H0 : β1=0 ,即骨关节炎评分OAP与DON含量之间无ON含量之间有直线回归关系 α=0.05
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
总体相关系数与样本相关系数
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(三)应用条件
第二节 直线回归的统计推断
第二节 直线回归的统计推断
(一)回归模型与参数解释
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计
例1 根据例2-1数据可知骨关节炎评分OAP(Y)与粮食真菌DON含量(X)的相关系 数r=0.7863,n=38。现估计总体相关系数ρ的95%置信区间。 将r=0.7863代入式(11-1),得 1 1 r 1 1 0.7863 zr ln( ) ln( ) 1.0617 2 1 r 2 1 0.7863 将Zr = 1.0617、Z0.05/2=1.96和n=38代入式(11-2),得(0.7304,1.3930)。将该上、 下限分别代入式(11-3),得
反应变量离均差平方和的分解示意图
ˆ y ) ( y y ˆ) ( y y ) ( y
2 2
2
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
ei
第二节 直线回归的统计推断
(一)回归模型与参数解释
下图为总体直线回归模型示意图,直线描述了条件总体均数 μy 随着x取 值的变化而变化。4个正态分布曲线反映了反应变量y随着解释变量x的4个不 同取值而有所不同。
总体直线回归模型示意图
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第十一章 直线相关与回归的推断
王 彤
山西医科大学
目录
01 第一节:直线相关系数的统计推断
02 05
第二节:直线回归的统计推断
重点难点
※ 总体相关系数的置信区间估计和相关系数的假设检验 ※ 总体回归系数的置信区间估计及回归方程的假设检验 ※ 回归中反应变量平均值的置信区间估计与个体值的预测区间估计 ※ 回归模型及其方差分析
在第二章骨关节炎评分OAP与粮食真菌DON含量的关系分析中,根据散
点图并结合专业上的考虑,可以依据一定的规则寻找一条潜在的直线来刻画两 变量之间的数量依存关系。简单直线回归模型假设y 的观测值服从一系列随解
释变量x而变化的正态分布,其连续变化的均值取决于x 值。
ei
第二节 直线回归的统计推断
(一)回归模型与参数解释
第一节 直线相关系数的统计推断
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计 1.总体相关系数 ρ
直线相关系数表示了两个变量之间直线关系的强度和方向,两变量无需区分 解释变量与反应变量。第二章我们基于样本数据介绍了样本相关系数,与之相对 应的参数即总体相关系数,用希腊字母ρ 表示。如ρ =0表示两变量间不存在直线 相关关系。在实际工作中,常用样本相关系数r估计总体相关系数 ρ。
2 2
10.0847 2.028 4.2524 = 1.4608, 18.7086
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
第二节 直线回归的统计推断
(五)应用条件
需满足:①反应变量与解释变量之间呈直线关系;②各观测值相互独立; ③解释变量固定时所对应反应变量服从条件正态分布;④不同解释变量取值下 反应变量的条件方差相等即方差齐。 统计模型是基于一系列假设条件下对客观现象的抽象化表示,独立、正态 分布、方差齐的若干解释变量的条件均数恰好在一条直线上就是直线回归模型 的基本假设。
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计 2.总体相关系数的置信区间估计
一般情况下(ρ≠0 时),r的抽样分布并不对称,无法利用正态分布理论对ρ 进行 统计推断。数理理论与蒙特卡罗模拟显示,按式(11-1)对r作变换后得到的 zr具有近似 正态性,可用于后续统计推断:
1 1 r zr ln( ) (11-1) 2 1 r
e 1 e 1 0.6233 2 zr 20.7304 e 1 e 1
2 zr 20.7304
e 1 e 1 21.3930 0.8838 2 zr e 1 e 1
2 zr
21.3930
因此, ρ的95%置信区间为(0.6233, 0.8838)。
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
如同其他统计量,样本相关系数不等于 0并不表示总体中两变量一定存在直线关系。 如图所示,从相关系数为0的总体中,随机抽样得到的一组样本,由于抽样误差的存在, 计算得到的样本相关系数 r=0.562,并不等于0。故基于样本计算出相关系数之后需对其总 体相关系数是否为0进行假设检验。
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
第二节 直线回归的统计推断
(四)反应变量个体值的预测区间
S y|x1 S yx
1 ( x1 x ) 1 (178.42 195.8221) 1 4.1970 1 4.2524 n lxx 38 1164923.114
小结
小结
3.直线回归的统计推断问题基于F分布,故需满足以下条件:①反应变量与解
释变量之间呈直线关系;②各观测值相互独立;③解释变量固定时所对应反应 变量服从条件正态分布;④不同解释变量取值下反应变量的条件方差相等,即
方差齐。这些条件可通过残差分析做出直观判断。
4.在直线回归模型基础上,可对反应变量平均值的置信区间和个体值的预测区 间估进行估计,但需注意两者的含义是不同的。 5.总体回归线的95%置信带与个体值y的95%预测带均由对称于回归线的弧形曲 线构成,后者比前者更远离回归线。
计算出所有x值对应y的总体均数的95%置信区间,以x为横坐标,y为纵坐标, 将置信区间的上下限分别连起来形成的两条弧形线间的区域,称为回归直线的置 信带(confidence band),见图11-6中离回归直线较近的两条弧线所确定的区域。
第二节 直线回归的统计推断
(三)反应变量平均值的置信区间
反应变量平均值 的置信带和反应变量个体值的预测带
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
变异来源 回归 残差 总变异
SS v MS F P 1027.2061 1 1027.2061 58.3155 <0.01 634.1264 36 17.6146 1661.3325 37
第二节 直线回归的统计推断
(三)反应变量平均值的置信区间
图4给出了两均数比较的分布示意图。 设结果变量的总体均数为 μ ,两组均数 分别为μ1 和 μ2,此时两组均数之差恰好 为回归方程中的β1。对于β1 是否不为0的 方差分析恰好就是两组均数是否不等的
假设检验。
用回归表示两均数比较的分布示意图
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
总体回归系数为0时随机抽样得到的某个样本
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
3.回归系数的方差分析
例2续 现用方差分析对例2的样本回归方程作假设检验。
(1) 建立检验假设,确定检验水准
H0 : β1=0 ,即骨关节炎评分OAP与DON含量之间无ON含量之间有直线回归关系 α=0.05
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
总体相关系数与样本相关系数
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(二)ρ =0的假设检验
第一节 直线相关系数的统计推断
(三)应用条件
第二节 直线回归的统计推断
第二节 直线回归的统计推断
(一)回归模型与参数解释
第一节 直线相关系数的统计推断
(一)总体相关系数的置信区间估计
例1 根据例2-1数据可知骨关节炎评分OAP(Y)与粮食真菌DON含量(X)的相关系 数r=0.7863,n=38。现估计总体相关系数ρ的95%置信区间。 将r=0.7863代入式(11-1),得 1 1 r 1 1 0.7863 zr ln( ) ln( ) 1.0617 2 1 r 2 1 0.7863 将Zr = 1.0617、Z0.05/2=1.96和n=38代入式(11-2),得(0.7304,1.3930)。将该上、 下限分别代入式(11-3),得
反应变量离均差平方和的分解示意图
ˆ y ) ( y y ˆ) ( y y ) ( y
2 2
2
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验
ei
第二节 直线回归的统计推断
(一)回归模型与参数解释
下图为总体直线回归模型示意图,直线描述了条件总体均数 μy 随着x取 值的变化而变化。4个正态分布曲线反映了反应变量y随着解释变量x的4个不 同取值而有所不同。
总体直线回归模型示意图
第二节 直线回归的统计推断
(二)β1的置信区间估计和假设检验