第七讲 相关分析与回归分析解析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意,A最高,但体重排名为 3 ,比体重排名为 4,5,6,7,8 的重,贡献5 个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、 E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,
R = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22. 因而rk=(88/56)-1=0.57。
Spearman秩相关系数(斯皮尔曼):采用非参数检验方法 来度量定序变量间的线性相关关系,由于数据为非定距 变量,因此不能直接采用原始数据,而是利用数据的秩
Kendallτ秩相关系数(肯德尔):采用非参数检验方法来 度量定序变量间的线性相关关系
连续变量的相关分析
Pearson简单相关系数:其中
6
d
2 i
rs
1
i 1
n(n2
1)
两变量正相关,秩变化有同步性,r趋向于1;
两变量完全正线性相关,ui和vi相等,r=1;完全负相关, ui+vi=n+1,r=-1;
检验系数,原假设为:两变量不相关。
小样本,服从Spearman分布;大样本,z r n 1 服从标
准正态分布。
定序变量的相关分析-Kendall秩相关系数
对相关关系的显著性进行检验,该检验原假设是:两总体 相关系数等于0。
t统计量:t r n 2 , 服从自由度为n-2的t分布。
1 r2
定序变量的相关分析-Spearman
ui和vi分别表示变量x和y的秩变量,用di=ui-vi表示第i个样
本对应于两变量的秩之差。
n
Spearman秩相关公式:
举例:列联表分析
案例6.1 双变量相关分析
案例6.1.sav的资料给出了杭州市2006年市区分月统计的平 均温度和日照时数。试据此分析平均温度和日照时数的相 关性。
偏相关分析
很多情况下,需要进行相关分析的变量的取值会同时受到 其他变量的影响,这时候就需要把其他变量控制住,然后 输出控制其他变量影响后的相关系数。SPSS的偏相关分析 (Partial)过程就是为解决这一问题而设计的。
定类变量的相关分析
卡方检验离散变量的相关性,称为列联表分析。
用多行多列纵横交错形成一个表体。
Eij
ni. n. j n
Eij为联合观察频数;ni.为第i行观察频数之和,n.j为第j列观 察频数之和。
Pearson 卡方统计量:
s
2
t
(
fij
Eij
2
)
i1 j1
Eij
该检验的原假设为:两变量相互独立。
相关分析与回归分析的区别
相关分析研究的变量之间关系是对等的,回归分析研究的 变量有解释和被解释之分;
相关分析-散点图
将数据以点的形式画在直角平面上。
基本操作: ➢图形-旧对话框-散点/点状
相关系数
两个步骤: 1. 计算样本相关系数r;
相关系数 r=0 |r|<0.3 |r|=0.3~0.5 |r|=0.5~0.8 |r|>0.8
|r|=1
取值范围
相关程度 无相关 微弱相Baidu Nhomakorabea 低度相关 显著相关 高度相关 完全相关
设在v1后面有R1个秩大于v1,v2后面有R2个秩大于v2,.....在 vn-1后面有Rn-1个秩大于vn-1,令
R R1 R2 Rn1
显然,变量x和y相关性越强,则R越大。
Kendall秩相关系数:
rk
4R n(n 1)
1
举例—kendall秩相关系数
假如我们设一组8人的身高和体重在那里A的人是最高的, 第三重,等等:
2. 对样本来自的两总体是否存在显著线性关系进行推断。 ➢提出零假设,即两总体无线性相关性;
➢选择检验统计量;
➢计算检验统计量的观测值和对应的概率p值;
➢决策
相关系数的分类
Pearson简单相关系数(皮尔逊):用来度量正态分布的定 距变量间的线性相关关系,Pearson简单相关系数不能用 于度量变量之间的非线性关系
案例6.3.sav的资料给出了沈阳、大连和鞍山2006年各月的 平均气温情况。试用距离分析方法研究这三个地区月平均 气温的相似程度。
回归分析
回归分析是研究两个变量或多个变量之间因果关系的统计 方法。
基本思想:在进行相关分析的基础上,对确定具有相关关 系的两个或多个变量之间数量变化的一般关系进行测定, 确定一个合适的数学模型,以便从已知量来推断未知量。
差。
r
2 xy
n
(xi x)(yi y)
i 1
2 xy
为协方差, x,
1 n ( xi x )( yi
y
y
为标准
)
x y
n
n
(xi x)2 ( yi y)2
n i1
Sx
Sy
i 1
i 1
➢x和y是对称的,说明x与y的相关系数等同于y和x和相关系数; ➢简单相关系数是无量纲的; ➢x和y做线性变换后可能改变相关系数的符号,但不会改变值; ➢只能度量线性关系,不能度量非线性关系的。
控制变量个数为一时,偏相关系数称为一阶偏相关,为2则 是二阶偏相关。
步骤: 1.计算样本的偏相关系数 2.对样本来自两总体是否存在显著净相关进行推断:
➢ 提出零假设:两总体的偏相关系数与零无显著差异; ➢ 选择检验统计量t; ➢ 计算检验统计量的观测值和对应的概率p值; ➢ 决策。
案例6.2
案例6.2.sav的资料给出了随机抽取的山东省某学校的12名 学生的IQ值、语文成绩和数学成绩。因为语文成绩和数学 成绩都受IQ的影响,所以试用偏相关分析研究学生语文成 绩和数学成绩的相关关系。
案例6.3 距离分析
SPSS的距离分析(Distances)也属于相关分析的范畴,其 基本功能是对样本观测值之间差异性或者相似程度进行度 量,从而对数据形成一个初步的了解。这种分析方法主要 应用在分析之前对数据背后的专业知识不够充分了解,进 行探索性研究的情形。
第七讲 相关分析与线性回归分析
内容概要
概述 相关分析 偏相关分析 回归分析 曲线估计
概述
相关分析和回归分析都是分析客观事物之间相关性的数量 分析方法。
相互关系:函数关系与统计关系 统计关系:不完全确定的随机关系,当一个或几个相互联
系的变量取一定值时,与其相对应的另一个变量取值虽不 确定,但会按照某种规律在一定范围内变化。 ➢ 线性相关:正/负 ➢ 非线性相关
R = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22. 因而rk=(88/56)-1=0.57。
Spearman秩相关系数(斯皮尔曼):采用非参数检验方法 来度量定序变量间的线性相关关系,由于数据为非定距 变量,因此不能直接采用原始数据,而是利用数据的秩
Kendallτ秩相关系数(肯德尔):采用非参数检验方法来 度量定序变量间的线性相关关系
连续变量的相关分析
Pearson简单相关系数:其中
6
d
2 i
rs
1
i 1
n(n2
1)
两变量正相关,秩变化有同步性,r趋向于1;
两变量完全正线性相关,ui和vi相等,r=1;完全负相关, ui+vi=n+1,r=-1;
检验系数,原假设为:两变量不相关。
小样本,服从Spearman分布;大样本,z r n 1 服从标
准正态分布。
定序变量的相关分析-Kendall秩相关系数
对相关关系的显著性进行检验,该检验原假设是:两总体 相关系数等于0。
t统计量:t r n 2 , 服从自由度为n-2的t分布。
1 r2
定序变量的相关分析-Spearman
ui和vi分别表示变量x和y的秩变量,用di=ui-vi表示第i个样
本对应于两变量的秩之差。
n
Spearman秩相关公式:
举例:列联表分析
案例6.1 双变量相关分析
案例6.1.sav的资料给出了杭州市2006年市区分月统计的平 均温度和日照时数。试据此分析平均温度和日照时数的相 关性。
偏相关分析
很多情况下,需要进行相关分析的变量的取值会同时受到 其他变量的影响,这时候就需要把其他变量控制住,然后 输出控制其他变量影响后的相关系数。SPSS的偏相关分析 (Partial)过程就是为解决这一问题而设计的。
定类变量的相关分析
卡方检验离散变量的相关性,称为列联表分析。
用多行多列纵横交错形成一个表体。
Eij
ni. n. j n
Eij为联合观察频数;ni.为第i行观察频数之和,n.j为第j列观 察频数之和。
Pearson 卡方统计量:
s
2
t
(
fij
Eij
2
)
i1 j1
Eij
该检验的原假设为:两变量相互独立。
相关分析与回归分析的区别
相关分析研究的变量之间关系是对等的,回归分析研究的 变量有解释和被解释之分;
相关分析-散点图
将数据以点的形式画在直角平面上。
基本操作: ➢图形-旧对话框-散点/点状
相关系数
两个步骤: 1. 计算样本相关系数r;
相关系数 r=0 |r|<0.3 |r|=0.3~0.5 |r|=0.5~0.8 |r|>0.8
|r|=1
取值范围
相关程度 无相关 微弱相Baidu Nhomakorabea 低度相关 显著相关 高度相关 完全相关
设在v1后面有R1个秩大于v1,v2后面有R2个秩大于v2,.....在 vn-1后面有Rn-1个秩大于vn-1,令
R R1 R2 Rn1
显然,变量x和y相关性越强,则R越大。
Kendall秩相关系数:
rk
4R n(n 1)
1
举例—kendall秩相关系数
假如我们设一组8人的身高和体重在那里A的人是最高的, 第三重,等等:
2. 对样本来自的两总体是否存在显著线性关系进行推断。 ➢提出零假设,即两总体无线性相关性;
➢选择检验统计量;
➢计算检验统计量的观测值和对应的概率p值;
➢决策
相关系数的分类
Pearson简单相关系数(皮尔逊):用来度量正态分布的定 距变量间的线性相关关系,Pearson简单相关系数不能用 于度量变量之间的非线性关系
案例6.3.sav的资料给出了沈阳、大连和鞍山2006年各月的 平均气温情况。试用距离分析方法研究这三个地区月平均 气温的相似程度。
回归分析
回归分析是研究两个变量或多个变量之间因果关系的统计 方法。
基本思想:在进行相关分析的基础上,对确定具有相关关 系的两个或多个变量之间数量变化的一般关系进行测定, 确定一个合适的数学模型,以便从已知量来推断未知量。
差。
r
2 xy
n
(xi x)(yi y)
i 1
2 xy
为协方差, x,
1 n ( xi x )( yi
y
y
为标准
)
x y
n
n
(xi x)2 ( yi y)2
n i1
Sx
Sy
i 1
i 1
➢x和y是对称的,说明x与y的相关系数等同于y和x和相关系数; ➢简单相关系数是无量纲的; ➢x和y做线性变换后可能改变相关系数的符号,但不会改变值; ➢只能度量线性关系,不能度量非线性关系的。
控制变量个数为一时,偏相关系数称为一阶偏相关,为2则 是二阶偏相关。
步骤: 1.计算样本的偏相关系数 2.对样本来自两总体是否存在显著净相关进行推断:
➢ 提出零假设:两总体的偏相关系数与零无显著差异; ➢ 选择检验统计量t; ➢ 计算检验统计量的观测值和对应的概率p值; ➢ 决策。
案例6.2
案例6.2.sav的资料给出了随机抽取的山东省某学校的12名 学生的IQ值、语文成绩和数学成绩。因为语文成绩和数学 成绩都受IQ的影响,所以试用偏相关分析研究学生语文成 绩和数学成绩的相关关系。
案例6.3 距离分析
SPSS的距离分析(Distances)也属于相关分析的范畴,其 基本功能是对样本观测值之间差异性或者相似程度进行度 量,从而对数据形成一个初步的了解。这种分析方法主要 应用在分析之前对数据背后的专业知识不够充分了解,进 行探索性研究的情形。
第七讲 相关分析与线性回归分析
内容概要
概述 相关分析 偏相关分析 回归分析 曲线估计
概述
相关分析和回归分析都是分析客观事物之间相关性的数量 分析方法。
相互关系:函数关系与统计关系 统计关系:不完全确定的随机关系,当一个或几个相互联
系的变量取一定值时,与其相对应的另一个变量取值虽不 确定,但会按照某种规律在一定范围内变化。 ➢ 线性相关:正/负 ➢ 非线性相关