13.简单线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t r0 Sr
r 1 r2 n2
▪ t统计量服从自由度为n-2的t分布。
▪ 3.Spearman等级相关系数
▪ Spearman等级相关系数相当于Pearson相关系 数的非参数形式,它是根据各数据的排序名次 进行计算,取值范围也在―1~1之间。
▪ 适用于那些不满足正态分布的资料、总体分布 未知的资料和等级资料。
▪ 求直线回归方程依据的是最小二乘法(least square method)的原理,即各实测点到回归直 线的纵向距离的平方和最小,使回归方程可以 较好地反映各点的分布情况。a和b的计算式为 :
b ( X X )(Y Y ) lXY
(X X)2
l XX
a Y bX
▪ (1)方差分析
▪ 其原理与前面的单因素方差分析相同,统计量F 的计算公式为, F SS回归 / 回归 MS回归 SS残差 / 残差 MS残差
1.操作步骤与界面说明
▪ 2.结果解释
▪ 下图所示是对模型中各个自变量纳入模型情况 进行的汇总,由表可见,只有一个自变量,变 量选择的方法为强行进入法,也就是将所有的 自变量都放入模型中。
如下是对回归方程拟合情况的描述,可知相关系数 的取值(R),相关系数的平方即决定系数,校正后 的决定系数和回归系数的标准误。
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2 lXX lYY
▪ 相关系数的特点:
▪ (1)相关系数r是一个无单位的量值,其取值范 围为-1≤ r ≤1。
▪ (2)r值为正表示正相关;r值为负表示负相关 ;r值等于0为零相关。
▪ (3)相关系数的绝对值越接近于1,表示两变 量间的相关关系的密切程度越高;越接近于0, 则表示相关程度越不密切。
▪ rs的计算公式为:
6 d 2
rs 1 n(n2 1)
▪ 4.Kendall等级相关系数
▪ Kendall等级相关系数是对两个有序变量或两个 秩变量之间相关程度的度量统计量,属于非参 数统计范畴,它在计算时考虑了结点(秩相同 的点)的影响。
▪ Kendall Tau-b,它利用变量值的秩数据,计算 一致对数目(U)和非一致对数目(V),其计 算公式为: T 1 4V n(n 1)
2.结果解释
▪ (1)案例处理摘要。给出了数据使用的基本情 况,主要是对于有无缺失值的统计信息,本例 无缺失,全部用于分析。
▪ (2)近似矩阵,给出各变量之间的相似矩阵。
13.5 简单回归分析
▪ 原理
▪ 1.概念与要求
▪ (1)概念
▪ 线性回归(linear regression)是分析两个定量 变量间数量依存关系的统计分析方法。如果某 一个变量随着另一个变量的变化而变化,并且 它们的变化关系呈直线趋势,就可以用直线回 归方程来定量地描述它们之间的数量依存关系 ,这就是线性回归分析。
▪ 相应的总体均数的( 1 )置信区间为:
YˆP t / 2,n2 SYˆP
▪ (2)个体Y值的预测区间
▪ 个体Y值的预测区间为: YˆP t / 2,n2 SY XP 。
▪ 该区间是比总体回归置信带更远离的两条弧形 曲线,以95%的区间为例,表示的是期望有 95%的数据点所落入的范围。
分析实例
▪ (1)描述性输出。“描述性统计量”给出关于 三个变量的均值、标准差和频数。
▪ (2)相关性输出。“相关性”表格上部显示三 个变量之间都呈显著的正相关。下部结果显示 在控制身高的影响后,体重与肺活量之间仍然 呈正相关(r=0.461,P=0.047)。
13.4 距离相关
▪ 在实际的相关分析中,变量可能多到无法用以 上方法解决的地步,变量都携带了一定的信息 ,彼此之间又有重叠,这时往往需要先对各个 指标的差异性、相似程度进行考察,根据结果 再考虑如何进行进一步分析。距离分析就是简 化数据的一种预分析过程。
▪ 3.积矩相关系数应注意的问题
▪ (1)散点图可以直观地判断两变量间是否具有线性关 系。
▪ (2)积矩相关系数要求两变量符合双变量正态分布。
▪ (3)作相关分析时,应该剔除离群值。
▪ (4)相关分析要有实际意义,两变量相关并不代表两 变量间一定存在内在联系。
▪ (5)样本的相关系数为0时,并不意味着两变量一定无 相关性。
▪ (6)分层资料盲目合并时易出现假象。
分析实例
▪ 对某省9个地区水质的碘含量及其甲状腺肿的患 病率作调查后得到一组数据,如图所示,试分 析不同地区的甲状腺肿的患病率高低与本地区 水质的碘含量有无关联?数据文件见例13-1.sav 。
▪利用散点图观察两变量之间有无相关趋势。
1.操作步骤与界面说明
▪THE END
▪ (2)统计意义:相关反映两变量间的相互关系 。回归则反映两变量间的依存关系。
▪ (3)分析目的:相关分析表明两变量间线性关 系的密切程度及相关方向。回归分析则用函数 公式定量表达应变量随自变量变化的关系。
▪ 2.联系
▪ (1)方向一致:对同一资料,其相关系数r与回 归系数b的正负号一致。
▪ (2)假设检验等价:对同一样本,有tr=tb= F。 由于tb计算较复杂,实际分析中常以r的假设检验 代替对b的检验。
▪ 依次单击菜单“分析”|“相关”|“双变量…”命令 。
▪ 2.结果解释
▪ (1)描述性输出。“描述性统计量”表格给出 了两个变量的基本统计信息,包括均值和标准 差。
▪ (2)相关性输出。“相关性”表格给出了 Pearson 相关系数及其检验结果。可以推断出 碘含量与甲状腺肿之间存在着明显的正相关。
▪ (2)要求
▪ ①因变量Y与自变量X呈线性(linear)关系。
▪ ②每个个体观察值之间相互独立(independent) 。
▪ ③应变量Y属于正态随机变量(normal distribution)。
▪ ④在一定范围内,不同的X值所对应的随机变量 Y的方差相等(equal variance)。
▪ 2.计算和检验
▪ 2.相似性测量指标 ▪ 分为计量资料和二分类资料
分析实例
▪ 有10名学生参加测试,检测了7个指标,分别用 变量X1---X7表示,对其进行距离测量,看看哪 几个距离比较接近,如图所示。数据见“133.sav”。
1.操作步骤与界面说明
单击度量按钮,弹出下图所示的对话框,单击转换栏 的下拉列表,选则Z得分,单击继续后返回。
▪ 距离分析可以计算距离测量指标或者相似性测 量指标 。
▪ 1.距离测量指标
▪ (1)区间变量(连续变量):默认为Euclidean 距离(欧氏距离) ;有Euclidean距离 、平方 Euclidean距离 、块等。
▪ (2)计数变量:默认为卡方统计量测量度量。
▪ (3)二分类变量:默认为Euclidean距离 ;有 Euclidean距离 、平方Euclidean距离 、尺度差 分、模式差别、方差等。
▪ (6)完全相关:相关系数的绝对值为1,分为完全正相 关和完全负相关。
13.1.2 相关系数的计算
▪ 1.相关系数基本思想
相关分析往往考察的是两个连续变量的相关关 系,对任何类型的变量,都可以使用相应的指 标进行相关关系的考察。
统计学中,一般用样本相关系数r来推断总体相 关系数ρ。
对于反映有序变量或连续变量间关联程度的参 数,取值范围r为-1~1,r>0为正相关,r<0 为负相关,r=0为零相关。
▪ (3)非线性相关:X、Y之间没有明显的线性关系,却 存在着某种非线性关系,说明X仍是影响Y的因素。
▪ (4)秩相关:也称等级相关,对原变量的分布不作要 求,属于非参数统计方法。
▪ (5)正相关与负相关:两变量X、Y同增或同减,变化 趋势同向,称为正相关,两变量一增一减,变化趋势反 向,称为负相关。
IBM-来自百度文库PSS
第13章 简单线性回归与相关
13.1 相关分析简介
▪ 13.1.1 基本概念 ▪ 13.1.2 相关系数的计算 ▪ 13.1.3 SPSS中的相应功能
13.1.1 基本概念
▪ (1)线性相关:最简单的一种关联。
▪ (2)曲线相关:两变量之间存在相关趋势,但并非呈 线性,而是一曲线。
▪
▪ r12(3) 就是在控制了第三个因素的影响下所计算的第一
个、 第二个因素之间的偏相关系数。
分析实例
▪ 研究者测量得到20名男童身高X(cm)、体重 Y(kg)、肺活量Z(L)的数据如图所示,试对控制 身高后的体重与肺活量之间的关系进行研究。 数据文件见例13-2.sav。
1.操作步骤与界面说明
▪ (4)|r|=1,为完全相关。此种情况很少见。
▪ 2.相关系数的检验方法
▪ 常用的检验方法:
▪ (1)直接查相关系数临界值表,比较︱r︱与临界值, 统计量绝对值越大,概率P越小;统计量绝对值越小, 概率P越大。
▪ (2)t检验
▪ H0为=0,H1为≠0,统计量t值为:
t r0 Sr
r 1 r2 n2
13.1.3 SPSS中的相应功能
▪ (1)“双变量相关”过程:用于两个或多个变 量间的参数或非参数相关分析。
▪ (2)“偏相关”过程:若需要进行相关分析的 两个变量其取值均受到其他变量的影响,可以 通过偏相关分析对其他变量进行控制,给出在 控制其他变量影响后两个变量的相关系数,分 析思想和协方差分析类似。
▪ 13.3.1 含义 ▪ 在实际应用中,线性相关分析可能会受到其他
变量的影响,只有在其他变量固定不变的情况 下计算相关系数,才能真正反映它们之间的相 关关系,这样的相关分析称为偏相关分析。
▪ 13.3.2 偏相关系数的计算 ▪ 偏相关系数的计算公式为:
r12(3)
r12 r13r23 1 r132 1 r232
如下为对模型进行方差分析的结果,F=115.136 ,P=0.000,提示模型具有统计学意义。
a=17.484,b=4.459,回归方程为:
患病ˆ 率 17.484 4.459碘含量
13.5.3 相关与回归分析的区别与联系
▪ 1.区别
▪ (1)资料要求:相关分析要求两个变量为均服 从双变量正态分布的随机变量。回归分析要求 应变量服从正态分布,而自变量可以是正态分 布的随机变量,也可以是能精确测量和严格控 制的变量。
▪ (3)“距离相关”过程:此过程可对同一变量 内部各观察单位间的数值或各个不同变量进行 相似性或不相似性距离分析 。
13.2 双变量相关
▪ 原理
▪ 1.系数计算
▪ Pearson相关系数(积矩相关系数)就是人们定 量地描述线性相关程度好坏的一个统计指标。 样本的相关系数用r表示,总体相关系数用ρ表示 。相关系数的计算公式为:
▪ (2)t检验 ▪ 检验统计量t的计算公式为,
t b0 Sb
▪ 其中Sb为回归系数的标准误,
Sb
SYX l XX
▪ 3.回归分析的统计预测
▪ 所谓预测就是将预报因子(自变量)代入回归 方程对预报量进行估计。
▪ (1)总体均数的置信区间
▪ 可对总体均数进行置信区间的估计,该范围在 散点图上表现为一个二维空间的弧形区带,也 称回归直线的置信带。
▪ Spearman等级相关系数
▪ 结果显示,Spearman相关系数为0.979, P<0.01,在α=0.05的水平上是拒绝原假设的, 结论同前。
▪ Kendall 等级相关系数
▪ 此系数是用于反映分类变量相关性的指标,适 用于两个变量均为有序分类的情况。 分析结果 同前。
13.3 偏相关分析
▪ 2.线性相关系数( Pearson积矩相关系数) 线性相关,又称简单相关,用来定量描述两个变 量间线性关系密切程度和相关方向的统计指标 ,适用于二元正态分布资料。 相关系数的计算公式为:
r (X X )(Y Y ) ( X X )2 (Y Y )2
▪ 相关系数的统计检验是计算t统计量,计算公式 为:
▪ (3)用回归解释相关:相关系数的平方r2称为 决定系数(coefficient of determination):
▪ 决定系数
r2
l
2 XY
l
2 XY
/ l XX
SS回
l XX lYY
lYY
SS总
▪ r2是回归平方和与总的离均差平方和之比,表示 回归效果的好坏,r2越接近1,回归的效果越好 ;反之,则说明回归的效果不好或意义不大。