第13章 简单线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§ 求直线回归方程依据的是最小二乘法(least square method)的原理,即各实测点到回归直 线的纵向距离的平方和最小,使回归方程可以 较好地反映各点的分布情况。a和b的计算式为 :
b ( X X )(Y Y ) lXY
(X X)2
l XX
a Y bX
§ (1)方差分析
§ 其原理与前面的单因素方差分析相同,统计量F
的计算公式为,
F
SS回归 / 回归 SS 残差 / 残差
MS回归 MS 残差
§ (2)t检验 § 检验统计量t的计算公式为,
t b0 Sb
§ 其中Sb为回归系数的标准误,
Sb
SYX l XX
§ 3.回归分析的统计预测 § 所谓预测就是将预报因子(自变量)代入回归
方程对预报量进行估计。
§ (1)总体均数的置信区间
§ 2.线性相关系数( Pearson积矩相关系数) 线性相关,又称简单相关,用来定量描述两个变 量间线性关系密切程度和相关方向的统计指标 ,适用于二元正态分布资料。
相关系数的计算公式为:
r (X X )(Y Y ) ( X X )2 (Y Y )2
§ 相关系数的统计检验是计算t统计量,计算公式 为:
§ (6)分层资料盲目合并时易出现假象。
分析实例
§ 对某省9个地区水质的碘含量及其甲状腺肿的患 病率作调查后得到一组数据,如图所示,试分 析不同地区的甲状腺肿的患病率高低与本地区 水质的碘含量有无关联?数据文件见例13-1.sav 。
§利用散点图观察两变量之间有无相关趋势。
1.操作步骤与界面说明
§ 距离分析可以计算距离测量指标或者相似性测 量指标 。
§ 1.距离测量指标
§ (1)区间变量(连续变量):默认为Euclidean 距离(欧氏距离) ;有Euclidean距离 、平方 Euclidean距离 、块等。
§ (2)计数变量:默认为卡方统计量测量度量。
§ (3)二分类变量:默认为Euclidean距离 ;有 Euclidean距离 、平方Euclidean距离 、尺度差 分、模式差别、方差等。
§ (6)完全相关:相关系数的绝对值为1,分为完全正相 关和完全负相关。
13.1.2 相关系数的计算
§ 1.相关系数基本思想 相关分析往往考察的是两个连续变量的相关关 系,对任何类型的变量,都可以使用相应的指 标进行相关关系的考察。
统计学中,一般用样本相关系数r来推断总体相 关系数ρ。 对于反映有序变量或连续变量间关联程度的参 数,取值范围r为-1~1,r>0为正相关,r<0 为负相关,r=0为零相关。
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2 lXX lYY
§ 相关系数的特点:
§ (1)相关系数r是一个无单位的量值,其取值范 围为-1≤ r ≤1。
§ (2)r值为正表示正相关;r值为负表示负相关 ;r值等于0为零相关。
§ (3)相关系数的绝对值越接近于1,表示两变 量间的相关关系的密切程度越高;越接近于0, 则表示相关程度越不密切。
如下为对模型进行方差分析的结果,F=115.136 ,P=0.000,提示模型具有统计学意义。
a=17.484,b=4.459,回归方程为:
患病ˆ 率 17.484 4.459 碘含量
13.5.3 相关与回归分析的区别与联系
§ 1.区别
§ (1)资料要求:相关分析要求两个变量为均服 从双变量正态分布的随机变量。回归分析要求 应变量服从正态分布,而自变量可以是正态分 布的随机变量,也可以是能精确测量和严格控 制的变量。
§ 2.相似性测量指标 § 分为计量资料和二分类资料
分析实例
§ 有10名学生参加测试,检测了7个指标,分别用 变量X1---X7表示,对其进行距离测量,看看哪 几个距离比较接近,如图所示。数据见“133.sav”。
1.操作步骤与界面说明
单击度量按钮,弹出下图所示的对话框,单击转换栏 的下拉列表,选则Z得分,单击继续后返回。
§ 依次单击菜单“分析”|“相关”|“双变量…”命令 。
§ 2.结果解释
§ (1)描述性输出。“描述性统计量”表格给出 了两个变量的基本统计信息,包括均值和标准 差。
§ (2)相关性输出。“相关性”表格给出了 Pearson 相关系数及其检验结果。可以推断出 碘含量与甲状腺肿之间存在着明显的正相关。
§ (2)要求ห้องสมุดไป่ตู้
§ ①因变量Y与自变量X呈线性(linear)关系。
§ ②每个个体观察值之间相互独立(independent) 。
§ ③应变量Y属于正态随机变量(normal distribution)。
§ ④在一定范围内,不同的X值所对应的随机变量 Y的方差相等(equal variance)。
§ 2.计算和检验
t r0 Sr
r 1 r2 n2
§ t统计量服从自由度为n-2的t分布。
§ 3.Spearman等级相关系数 § Spearman等级相关系数相当于Pearson相关系
数的非参数形式,它是根据各数据的排序名次 进行计算,取值范围也在―1~1之间。
§ 适用于那些不满足正态分布的资料、总体分布 未知的资料和等级资料。
§THE END
§ 可对总体均数进行置信区间的估计,该范围在 散点图上表现为一个二维空间的弧形区带,也 称回归直线的置信带。
§ 相应的总体均数的( 1 )置信区间为:
YˆP t / 2,n2 SYˆP
§ (2)个体Y值的预测区间
§ 个体Y值的预测区间为: YˆP t / 2,n2 SY X P 。
§ 该区间是比总体回归置信带更远离的两条弧形 曲线,以95%的区间为例,表示的是期望有 95%的数据点所落入的范围。
§
§ r12(3) 就是在控制了第三个因素的影响下所计算的第一
个、 第二个因素之间的偏相关系数。
分析实例
§ 研究者测量得到20名男童身高X(cm)、体重 Y(kg)、肺活量Z(L)的数据如图所示,试对控制 身高后的体重与肺活量之间的关系进行研究。 数据文件见例13-2.sav。
1.操作步骤与界面说明
§ (4)|r|=1,为完全相关。此种情况很少见。
§ 2.相关系数的检验方法
§ 常用的检验方法:
§ (1)直接查相关系数临界值表,比较︱r︱与临界值, 统计量绝对值越大,概率P越小;统计量绝对值越小, 概率P越大。
§ (2)t检验
§ H0为=0,H1为≠0,统计量t值为:
t r0 Sr
r 1 r2 n2
§ rs的计算公式为:
6 d 2
rs 1 n(n2 1)
§ 4.Kendall等级相关系数
§ Kendall等级相关系数是对两个有序变量或两个 秩变量之间相关程度的度量统计量,属于非参 数统计范畴,它在计算时考虑了结点(秩相同 的点)的影响。
§ Kendall Tau-b,它利用变量值的秩数据,计算
§ 3.积矩相关系数应注意的问题
§ (1)散点图可以直观地判断两变量间是否具有线性关 系。
§ (2)积矩相关系数要求两变量符合双变量正态分布。 § (3)作相关分析时,应该剔除离群值。 § (4)相关分析要有实际意义,两变量相关并不代表两
变量间一定存在内在联系。
§ (5)样本的相关系数为0时,并不意味着两变量一定无 相关性。
分析实例
1.操作步骤与界面说明
§ 2.结果解释
§ 下图所示是对模型中各个自变量纳入模型情况 进行的汇总,由表可见,只有一个自变量,变 量选择的方法为强行进入法,也就是将所有的 自变量都放入模型中。
如下是对回归方程拟合情况的描述,可知相关系数
的取值(R),相关系数的平方即决定系数,校正后 的决定系数和回归系数的标准误。
§ (3)非线性相关:X、Y之间没有明显的线性关系,却 存在着某种非线性关系,说明X仍是影响Y的因素。
§ (4)秩相关:也称等级相关,对原变量的分布不作要 求,属于非参数统计方法。
§ (5)正相关与负相关:两变量X、Y同增或同减,变化 趋势同向,称为正相关,两变量一增一减,变化趋势反 向,称为负相关。
§ (3)“距离相关”过程:此过程可对同一变量 内部各观察单位间的数值或各个不同变量进行 相似性或不相似性距离分析 。
13.2 双变量相关
§ 原理
§ 1.系数计算 § Pearson相关系数(积矩相关系数)就是人们定
量地描述线性相关程度好坏的一个统计指标。 样本的相关系数用r表示,总体相关系数用ρ表示 。相关系数的计算公式为:
2.结果解释
§ (1)案例处理摘要。给出了数据使用的基本情 况,主要是对于有无缺失值的统计信息,本例 无缺失,全部用于分析。
§ (2)近似矩阵,给出各变量之间的相似矩阵。
13.5 简单回归分析
§ 原理
§ 1.概念与要求 § (1)概念
§ 线性回归(linear regression)是分析两个定量 变量间数量依存关系的统计分析方法。如果某 一个变量随着另一个变量的变化而变化,并且 它们的变化关系呈直线趋势,就可以用直线回 归方程来定量地描述它们之间的数量依存关系 ,这就是线性回归分析。
IBM-SPSS
第13章 简单线性回归与相关
13.1 相关分析简介
§ 13.1.1 基本概念 § 13.1.2 相关系数的计算 § 13.1.3 SPSS中的相应功能
13.1.1 基本概念
§ (1)线性相关:最简单的一种关联。
§ (2)曲线相关:两变量之间存在相关趋势,但并非呈 线性,而是一曲线。
§ Spearman等级相关系数
§ 结果显示,Spearman相关系数为0.979, P<0.01,在α=0.05的水平上是拒绝原假设的, 结论同前。
§ Kendall 等级相关系数
§ 此系数是用于反映分类变量相关性的指标,适 用于两个变量均为有序分类的情况。 分析结果 同前。
13.3 偏相关分析
§ (1)描述性输出。“描述性统计量”给出关于 三个变量的均值、标准差和频数。
§ (2)相关性输出。“相关性”表格上部显示三 个变量之间都呈显著的正相关。下部结果显示 在控制身高的影响后,体重与肺活量之间仍然 呈正相关(r=0.461,P=0.047)。
13.4 距离相关
§ 在实际的相关分析中,变量可能多到无法用以 上方法解决的地步,变量都携带了一定的信息 ,彼此之间又有重叠,这时往往需要先对各个 指标的差异性、相似程度进行考察,根据结果 再考虑如何进行进一步分析。距离分析就是简 化数据的一种预分析过程。
一致对数目(U)和非一致对数目(V),其计
算公式为:
T
1
4V n(n 1)
13.1.3 SPSS中的相应功能
§ (1)“双变量相关”过程:用于两个或多个变 量间的参数或非参数相关分析。
§ (2)“偏相关”过程:若需要进行相关分析的 两个变量其取值均受到其他变量的影响,可以 通过偏相关分析对其他变量进行控制,给出在 控制其他变量影响后两个变量的相关系数,分 析思想和协方差分析类似。
§ (3)用回归解释相关:相关系数的平方r2称为 决定系数(coefficient of determination):
§ 决定系数
r2
l
2 XY
l
2 XY
/ l XX
SS回
l XX lYY
lYY
SS总
§ r2是回归平方和与总的离均差平方和之比,表示 回归效果的好坏,r2越接近1,回归的效果越好 ;反之,则说明回归的效果不好或意义不大。
§ (2)统计意义:相关反映两变量间的相互关系 。回归则反映两变量间的依存关系。
§ (3)分析目的:相关分析表明两变量间线性关 系的密切程度及相关方向。回归分析则用函数 公式定量表达应变量随自变量变化的关系。
§ 2.联系
§ (1)方向一致:对同一资料,其相关系数r与回 归系数b的正负号一致。
§ (2)假设检验等价:对同一样本,有tr=tb= F。 由于tb计算较复杂,实际分析中常以r的假设检验 代替对b的检验。
§ 13.3.1 含义 § 在实际应用中,线性相关分析可能会受到其他
变量的影响,只有在其他变量固定不变的情况 下计算相关系数,才能真正反映它们之间的相 关关系,这样的相关分析称为偏相关分析。
§ 13.3.2 偏相关系数的计算 § 偏相关系数的计算公式为:
r12(3)
r12 r13r23 1 r132 1 r232
b ( X X )(Y Y ) lXY
(X X)2
l XX
a Y bX
§ (1)方差分析
§ 其原理与前面的单因素方差分析相同,统计量F
的计算公式为,
F
SS回归 / 回归 SS 残差 / 残差
MS回归 MS 残差
§ (2)t检验 § 检验统计量t的计算公式为,
t b0 Sb
§ 其中Sb为回归系数的标准误,
Sb
SYX l XX
§ 3.回归分析的统计预测 § 所谓预测就是将预报因子(自变量)代入回归
方程对预报量进行估计。
§ (1)总体均数的置信区间
§ 2.线性相关系数( Pearson积矩相关系数) 线性相关,又称简单相关,用来定量描述两个变 量间线性关系密切程度和相关方向的统计指标 ,适用于二元正态分布资料。
相关系数的计算公式为:
r (X X )(Y Y ) ( X X )2 (Y Y )2
§ 相关系数的统计检验是计算t统计量,计算公式 为:
§ (6)分层资料盲目合并时易出现假象。
分析实例
§ 对某省9个地区水质的碘含量及其甲状腺肿的患 病率作调查后得到一组数据,如图所示,试分 析不同地区的甲状腺肿的患病率高低与本地区 水质的碘含量有无关联?数据文件见例13-1.sav 。
§利用散点图观察两变量之间有无相关趋势。
1.操作步骤与界面说明
§ 距离分析可以计算距离测量指标或者相似性测 量指标 。
§ 1.距离测量指标
§ (1)区间变量(连续变量):默认为Euclidean 距离(欧氏距离) ;有Euclidean距离 、平方 Euclidean距离 、块等。
§ (2)计数变量:默认为卡方统计量测量度量。
§ (3)二分类变量:默认为Euclidean距离 ;有 Euclidean距离 、平方Euclidean距离 、尺度差 分、模式差别、方差等。
§ (6)完全相关:相关系数的绝对值为1,分为完全正相 关和完全负相关。
13.1.2 相关系数的计算
§ 1.相关系数基本思想 相关分析往往考察的是两个连续变量的相关关 系,对任何类型的变量,都可以使用相应的指 标进行相关关系的考察。
统计学中,一般用样本相关系数r来推断总体相 关系数ρ。 对于反映有序变量或连续变量间关联程度的参 数,取值范围r为-1~1,r>0为正相关,r<0 为负相关,r=0为零相关。
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2 lXX lYY
§ 相关系数的特点:
§ (1)相关系数r是一个无单位的量值,其取值范 围为-1≤ r ≤1。
§ (2)r值为正表示正相关;r值为负表示负相关 ;r值等于0为零相关。
§ (3)相关系数的绝对值越接近于1,表示两变 量间的相关关系的密切程度越高;越接近于0, 则表示相关程度越不密切。
如下为对模型进行方差分析的结果,F=115.136 ,P=0.000,提示模型具有统计学意义。
a=17.484,b=4.459,回归方程为:
患病ˆ 率 17.484 4.459 碘含量
13.5.3 相关与回归分析的区别与联系
§ 1.区别
§ (1)资料要求:相关分析要求两个变量为均服 从双变量正态分布的随机变量。回归分析要求 应变量服从正态分布,而自变量可以是正态分 布的随机变量,也可以是能精确测量和严格控 制的变量。
§ 2.相似性测量指标 § 分为计量资料和二分类资料
分析实例
§ 有10名学生参加测试,检测了7个指标,分别用 变量X1---X7表示,对其进行距离测量,看看哪 几个距离比较接近,如图所示。数据见“133.sav”。
1.操作步骤与界面说明
单击度量按钮,弹出下图所示的对话框,单击转换栏 的下拉列表,选则Z得分,单击继续后返回。
§ 依次单击菜单“分析”|“相关”|“双变量…”命令 。
§ 2.结果解释
§ (1)描述性输出。“描述性统计量”表格给出 了两个变量的基本统计信息,包括均值和标准 差。
§ (2)相关性输出。“相关性”表格给出了 Pearson 相关系数及其检验结果。可以推断出 碘含量与甲状腺肿之间存在着明显的正相关。
§ (2)要求ห้องสมุดไป่ตู้
§ ①因变量Y与自变量X呈线性(linear)关系。
§ ②每个个体观察值之间相互独立(independent) 。
§ ③应变量Y属于正态随机变量(normal distribution)。
§ ④在一定范围内,不同的X值所对应的随机变量 Y的方差相等(equal variance)。
§ 2.计算和检验
t r0 Sr
r 1 r2 n2
§ t统计量服从自由度为n-2的t分布。
§ 3.Spearman等级相关系数 § Spearman等级相关系数相当于Pearson相关系
数的非参数形式,它是根据各数据的排序名次 进行计算,取值范围也在―1~1之间。
§ 适用于那些不满足正态分布的资料、总体分布 未知的资料和等级资料。
§THE END
§ 可对总体均数进行置信区间的估计,该范围在 散点图上表现为一个二维空间的弧形区带,也 称回归直线的置信带。
§ 相应的总体均数的( 1 )置信区间为:
YˆP t / 2,n2 SYˆP
§ (2)个体Y值的预测区间
§ 个体Y值的预测区间为: YˆP t / 2,n2 SY X P 。
§ 该区间是比总体回归置信带更远离的两条弧形 曲线,以95%的区间为例,表示的是期望有 95%的数据点所落入的范围。
§
§ r12(3) 就是在控制了第三个因素的影响下所计算的第一
个、 第二个因素之间的偏相关系数。
分析实例
§ 研究者测量得到20名男童身高X(cm)、体重 Y(kg)、肺活量Z(L)的数据如图所示,试对控制 身高后的体重与肺活量之间的关系进行研究。 数据文件见例13-2.sav。
1.操作步骤与界面说明
§ (4)|r|=1,为完全相关。此种情况很少见。
§ 2.相关系数的检验方法
§ 常用的检验方法:
§ (1)直接查相关系数临界值表,比较︱r︱与临界值, 统计量绝对值越大,概率P越小;统计量绝对值越小, 概率P越大。
§ (2)t检验
§ H0为=0,H1为≠0,统计量t值为:
t r0 Sr
r 1 r2 n2
§ rs的计算公式为:
6 d 2
rs 1 n(n2 1)
§ 4.Kendall等级相关系数
§ Kendall等级相关系数是对两个有序变量或两个 秩变量之间相关程度的度量统计量,属于非参 数统计范畴,它在计算时考虑了结点(秩相同 的点)的影响。
§ Kendall Tau-b,它利用变量值的秩数据,计算
§ 3.积矩相关系数应注意的问题
§ (1)散点图可以直观地判断两变量间是否具有线性关 系。
§ (2)积矩相关系数要求两变量符合双变量正态分布。 § (3)作相关分析时,应该剔除离群值。 § (4)相关分析要有实际意义,两变量相关并不代表两
变量间一定存在内在联系。
§ (5)样本的相关系数为0时,并不意味着两变量一定无 相关性。
分析实例
1.操作步骤与界面说明
§ 2.结果解释
§ 下图所示是对模型中各个自变量纳入模型情况 进行的汇总,由表可见,只有一个自变量,变 量选择的方法为强行进入法,也就是将所有的 自变量都放入模型中。
如下是对回归方程拟合情况的描述,可知相关系数
的取值(R),相关系数的平方即决定系数,校正后 的决定系数和回归系数的标准误。
§ (3)非线性相关:X、Y之间没有明显的线性关系,却 存在着某种非线性关系,说明X仍是影响Y的因素。
§ (4)秩相关:也称等级相关,对原变量的分布不作要 求,属于非参数统计方法。
§ (5)正相关与负相关:两变量X、Y同增或同减,变化 趋势同向,称为正相关,两变量一增一减,变化趋势反 向,称为负相关。
§ (3)“距离相关”过程:此过程可对同一变量 内部各观察单位间的数值或各个不同变量进行 相似性或不相似性距离分析 。
13.2 双变量相关
§ 原理
§ 1.系数计算 § Pearson相关系数(积矩相关系数)就是人们定
量地描述线性相关程度好坏的一个统计指标。 样本的相关系数用r表示,总体相关系数用ρ表示 。相关系数的计算公式为:
2.结果解释
§ (1)案例处理摘要。给出了数据使用的基本情 况,主要是对于有无缺失值的统计信息,本例 无缺失,全部用于分析。
§ (2)近似矩阵,给出各变量之间的相似矩阵。
13.5 简单回归分析
§ 原理
§ 1.概念与要求 § (1)概念
§ 线性回归(linear regression)是分析两个定量 变量间数量依存关系的统计分析方法。如果某 一个变量随着另一个变量的变化而变化,并且 它们的变化关系呈直线趋势,就可以用直线回 归方程来定量地描述它们之间的数量依存关系 ,这就是线性回归分析。
IBM-SPSS
第13章 简单线性回归与相关
13.1 相关分析简介
§ 13.1.1 基本概念 § 13.1.2 相关系数的计算 § 13.1.3 SPSS中的相应功能
13.1.1 基本概念
§ (1)线性相关:最简单的一种关联。
§ (2)曲线相关:两变量之间存在相关趋势,但并非呈 线性,而是一曲线。
§ Spearman等级相关系数
§ 结果显示,Spearman相关系数为0.979, P<0.01,在α=0.05的水平上是拒绝原假设的, 结论同前。
§ Kendall 等级相关系数
§ 此系数是用于反映分类变量相关性的指标,适 用于两个变量均为有序分类的情况。 分析结果 同前。
13.3 偏相关分析
§ (1)描述性输出。“描述性统计量”给出关于 三个变量的均值、标准差和频数。
§ (2)相关性输出。“相关性”表格上部显示三 个变量之间都呈显著的正相关。下部结果显示 在控制身高的影响后,体重与肺活量之间仍然 呈正相关(r=0.461,P=0.047)。
13.4 距离相关
§ 在实际的相关分析中,变量可能多到无法用以 上方法解决的地步,变量都携带了一定的信息 ,彼此之间又有重叠,这时往往需要先对各个 指标的差异性、相似程度进行考察,根据结果 再考虑如何进行进一步分析。距离分析就是简 化数据的一种预分析过程。
一致对数目(U)和非一致对数目(V),其计
算公式为:
T
1
4V n(n 1)
13.1.3 SPSS中的相应功能
§ (1)“双变量相关”过程:用于两个或多个变 量间的参数或非参数相关分析。
§ (2)“偏相关”过程:若需要进行相关分析的 两个变量其取值均受到其他变量的影响,可以 通过偏相关分析对其他变量进行控制,给出在 控制其他变量影响后两个变量的相关系数,分 析思想和协方差分析类似。
§ (3)用回归解释相关:相关系数的平方r2称为 决定系数(coefficient of determination):
§ 决定系数
r2
l
2 XY
l
2 XY
/ l XX
SS回
l XX lYY
lYY
SS总
§ r2是回归平方和与总的离均差平方和之比,表示 回归效果的好坏,r2越接近1,回归的效果越好 ;反之,则说明回归的效果不好或意义不大。
§ (2)统计意义:相关反映两变量间的相互关系 。回归则反映两变量间的依存关系。
§ (3)分析目的:相关分析表明两变量间线性关 系的密切程度及相关方向。回归分析则用函数 公式定量表达应变量随自变量变化的关系。
§ 2.联系
§ (1)方向一致:对同一资料,其相关系数r与回 归系数b的正负号一致。
§ (2)假设检验等价:对同一样本,有tr=tb= F。 由于tb计算较复杂,实际分析中常以r的假设检验 代替对b的检验。
§ 13.3.1 含义 § 在实际应用中,线性相关分析可能会受到其他
变量的影响,只有在其他变量固定不变的情况 下计算相关系数,才能真正反映它们之间的相 关关系,这样的相关分析称为偏相关分析。
§ 13.3.2 偏相关系数的计算 § 偏相关系数的计算公式为:
r12(3)
r12 r13r23 1 r132 1 r232