7 相关与回归分析PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
相关系数r的计算 ▪ (1) 列出各对变量值xi和yi(i=1,2,…,n),
并分别计算出
n
xi
i1
n
yi
i1
n
x
2 i
i1
n
y
2 i
i1
n
xiyi
i1
▪ (2) 计算离均差平方和及离均差积和Lxx、Lyy、
Lxy
L xxi n1(xix)2i n1xi21 n(i n1xi)2
L yyi n1(yiy)2i n1yi21 n(i n1yi)2
0 .17 33
3
(2)计算相关系数r
r
30.17333 0.9197
1.3 70 8831.6 39 433
决定系数
r20.912970.8458 13
7.2.2相关系数的假设检验
根据式(7.4)计算的相关系数r,是总体相关系 数ρ的估计值。因为从ρ = 0 (无直线相关)的总 体中抽出的样本,其r值并不一定为0,因此, 得到r值后,必须检验r是否来自
10
饮水中含氟量与氟斑牙发病率的关系
饮水中含氟量(mg/L)
氟斑牙发病率(%) yi
xi
0.2
5.3
0.5
10.7
1.0
41.4
1.5
70.9
3.0
90.5
4.5
100.0
11
xi (1)
0.2 0.5 1.0 1.5 3.0 4.5
10.7
相关系数计算
yi (2)
5.3 10.7 41.4 70.9 90.5 100.0
▪ 当所研究的事物或现象之间,既存在着密切的 数量关系,又不象函数关系那样,能以一个变 量的数值精确地求出另一个变量的数值,变量 间的这类关系称为相关关系。
3
▪ 变量间的相关关系,一般分为两种: ▪ 因果关系:即一个变量的变化受另一个变
量或几个变量的制约,如微生物的繁殖 速度受温度、湿度、光照等因素的影响; ▪ 平行关系:即两个以上变量共同受到另外 因素的影响,如人的身高与体重之间, 同一水样的COD值与BOD值之间的数量 关系等都属于平行关系。 ▪ 研究两个变量的关系通常采用相关与回 归分析。
6
▪ 直线相关系数用符号r表示。 ∣r∣≤1,相关性质与相关系数r
值的关系见下图
▪ 设变量y随变量x而变化,即x为自变量,y为因变量。 当x由 小到大,因变量y由小到大时,则r值为正,称正相关;
▪ x由小到大,而y相应地由大到小时,则r值为负,称负相关; ▪ 若x与y间呈完全确定的函数关系时,各点都在一条直线上,
2
▪ 两个或多个变量之间的关系,总起来可以分为 两类,即函数关系和相关关系。
▪ 函数关系反映着现象严格的依存性,也叫做确定 性关系。
▪ 如,自由落体运动中,物质下落的距离S与所 需时间t之间,就有如下函数关系: ▪ S =1/2gt2。
▪ 变量s的值随t值而定。也就是说,如果取定了t 值,那么s 值就完全确定了。
n
n
1n n
L x yi 1(x i x )y ( i y ) i 1x iy i n (i 1x i)i ( 1y i)
9
▪ (3) 求相关系数r值
n
r
(xi x)(yi y)
i1
Lxy
n
n
(xi x)2 (yi y)2
LxxLyy
i1
i1
▪ 例7.1 某单位调查研究饮水中含氟量与 氟斑牙发病率的关系,获得资料如下表 所示,计算两者的相关系数和决定系数。
并且可以由x的取值预测y的取值范围。
5
7.2线性相关分析
▪ 7.2.1相关系数和决定系数
▪ 研究两个变量的关系,当一个变量x由小 到大,另一个变量y相应地由小到大(或
由大到小),此时两个变量的散点图呈直 线趋势,可以说这两个变量间有直线关 系。这种直线关系,或分析这种直线关 系的理论和方法,统称直线相关。两个 变量间直线相关的性质和密切程度,可 以用直线相关系数来描述。
875.66
n
xi
i1
n
yi
i1
n
x
2 i
i1
n
y
2 i
i1
n
xi yi
i 1
12
(1)计算 Lxx、Lyy、Lxy
Lxx3.2 79 1 61.0 721.3 7083
L yy 25.0 6 7 1 6 331 .82 8 81.6 39 433
Lxy8
7 .65 611.7 03 6
1 .8 8 3
则r =1或r = -1,称完全相关; ▪ 若x由小到大,而y的大小无一定规律,这时r = 0,称零相关。 ▪ 显然,相关系数r的绝对值越接近于1,相关越密切;r的绝对
值越接近于0,相关越不密切。
7
▪ 由于相关系数r表示相关程度的意义并不清 楚,而且解释夸大,比如r =0.5并不是表示 x和y变异50%可由二者之间的线性关系来 解释,这样需要引入另一个表示相关程度 的统计数——决定系数。决定系数定义为 相关系数r的平方,其含义是变量x引起y变 异的回归平方和占y变异总平方和的比率。 r2的取值范围为〔0,1〕,它只能表示相关 程度而不能表示相关性质。
4
▪ 设有两个随机变量x和y,对于任一随机
变量的每一个可能的值,另一个随机变 量都有一个确定的分布与之相对应,则 称这两个随机变量间存在相关关系。
▪ 如果对于变量x的每一个可能的值,都有 随机变量y的一个分布相对应,则称随机 变量y对变量x存在回归关系。
▪ x称为自变量,y称为因变量。通过回归
分析,可以找出变量间的数量依存关系,
318.8
xi2 (3)
0.04 0.25 1.00 2.25 9.00 20.25
32.79
yi2 (4)
28.09 114.49 1713.96 5026.81 8190.25 10000.00
25073.Hale Waihona Puke Baidu0
xiyi (5)
1.06 5.35 41.40 106.35 271.50 450.00
7 相关与回归分析
▪ 教学目的和要求: ▪ 了解相关与回归的概念;掌握直线相关、
直线回归分析的方法和正确应用;掌握 相关系数的假设检验,了解直线回归的 假设检验。 ▪ 重点、难点: ▪ 相关与回归的概念;相关系数的计算和 假设检验,直线回归方程的建立。
1
7.1 相关与回归的概念
▪ 客观事物是普遍联系的,我们在日常生 活和科学研究中,经常可以看到有些事 物间存在着一定的关系,如人的身高与 体重,温湿条件与微生物的繁殖,污染 物的排放量与环境质量等都存在着特定 的关系。事物之间的这种相互关系都涉 及到两个或两个以上的变量,只要其中 一个变量变动了,另一个或几个变量也 会跟着变动。这种两个或两个以上的变 量互相制约、互相依存的现象在环境科 学研究和环境保护实践中经常遇到
相关系数r的计算 ▪ (1) 列出各对变量值xi和yi(i=1,2,…,n),
并分别计算出
n
xi
i1
n
yi
i1
n
x
2 i
i1
n
y
2 i
i1
n
xiyi
i1
▪ (2) 计算离均差平方和及离均差积和Lxx、Lyy、
Lxy
L xxi n1(xix)2i n1xi21 n(i n1xi)2
L yyi n1(yiy)2i n1yi21 n(i n1yi)2
0 .17 33
3
(2)计算相关系数r
r
30.17333 0.9197
1.3 70 8831.6 39 433
决定系数
r20.912970.8458 13
7.2.2相关系数的假设检验
根据式(7.4)计算的相关系数r,是总体相关系 数ρ的估计值。因为从ρ = 0 (无直线相关)的总 体中抽出的样本,其r值并不一定为0,因此, 得到r值后,必须检验r是否来自
10
饮水中含氟量与氟斑牙发病率的关系
饮水中含氟量(mg/L)
氟斑牙发病率(%) yi
xi
0.2
5.3
0.5
10.7
1.0
41.4
1.5
70.9
3.0
90.5
4.5
100.0
11
xi (1)
0.2 0.5 1.0 1.5 3.0 4.5
10.7
相关系数计算
yi (2)
5.3 10.7 41.4 70.9 90.5 100.0
▪ 当所研究的事物或现象之间,既存在着密切的 数量关系,又不象函数关系那样,能以一个变 量的数值精确地求出另一个变量的数值,变量 间的这类关系称为相关关系。
3
▪ 变量间的相关关系,一般分为两种: ▪ 因果关系:即一个变量的变化受另一个变
量或几个变量的制约,如微生物的繁殖 速度受温度、湿度、光照等因素的影响; ▪ 平行关系:即两个以上变量共同受到另外 因素的影响,如人的身高与体重之间, 同一水样的COD值与BOD值之间的数量 关系等都属于平行关系。 ▪ 研究两个变量的关系通常采用相关与回 归分析。
6
▪ 直线相关系数用符号r表示。 ∣r∣≤1,相关性质与相关系数r
值的关系见下图
▪ 设变量y随变量x而变化,即x为自变量,y为因变量。 当x由 小到大,因变量y由小到大时,则r值为正,称正相关;
▪ x由小到大,而y相应地由大到小时,则r值为负,称负相关; ▪ 若x与y间呈完全确定的函数关系时,各点都在一条直线上,
2
▪ 两个或多个变量之间的关系,总起来可以分为 两类,即函数关系和相关关系。
▪ 函数关系反映着现象严格的依存性,也叫做确定 性关系。
▪ 如,自由落体运动中,物质下落的距离S与所 需时间t之间,就有如下函数关系: ▪ S =1/2gt2。
▪ 变量s的值随t值而定。也就是说,如果取定了t 值,那么s 值就完全确定了。
n
n
1n n
L x yi 1(x i x )y ( i y ) i 1x iy i n (i 1x i)i ( 1y i)
9
▪ (3) 求相关系数r值
n
r
(xi x)(yi y)
i1
Lxy
n
n
(xi x)2 (yi y)2
LxxLyy
i1
i1
▪ 例7.1 某单位调查研究饮水中含氟量与 氟斑牙发病率的关系,获得资料如下表 所示,计算两者的相关系数和决定系数。
并且可以由x的取值预测y的取值范围。
5
7.2线性相关分析
▪ 7.2.1相关系数和决定系数
▪ 研究两个变量的关系,当一个变量x由小 到大,另一个变量y相应地由小到大(或
由大到小),此时两个变量的散点图呈直 线趋势,可以说这两个变量间有直线关 系。这种直线关系,或分析这种直线关 系的理论和方法,统称直线相关。两个 变量间直线相关的性质和密切程度,可 以用直线相关系数来描述。
875.66
n
xi
i1
n
yi
i1
n
x
2 i
i1
n
y
2 i
i1
n
xi yi
i 1
12
(1)计算 Lxx、Lyy、Lxy
Lxx3.2 79 1 61.0 721.3 7083
L yy 25.0 6 7 1 6 331 .82 8 81.6 39 433
Lxy8
7 .65 611.7 03 6
1 .8 8 3
则r =1或r = -1,称完全相关; ▪ 若x由小到大,而y的大小无一定规律,这时r = 0,称零相关。 ▪ 显然,相关系数r的绝对值越接近于1,相关越密切;r的绝对
值越接近于0,相关越不密切。
7
▪ 由于相关系数r表示相关程度的意义并不清 楚,而且解释夸大,比如r =0.5并不是表示 x和y变异50%可由二者之间的线性关系来 解释,这样需要引入另一个表示相关程度 的统计数——决定系数。决定系数定义为 相关系数r的平方,其含义是变量x引起y变 异的回归平方和占y变异总平方和的比率。 r2的取值范围为〔0,1〕,它只能表示相关 程度而不能表示相关性质。
4
▪ 设有两个随机变量x和y,对于任一随机
变量的每一个可能的值,另一个随机变 量都有一个确定的分布与之相对应,则 称这两个随机变量间存在相关关系。
▪ 如果对于变量x的每一个可能的值,都有 随机变量y的一个分布相对应,则称随机 变量y对变量x存在回归关系。
▪ x称为自变量,y称为因变量。通过回归
分析,可以找出变量间的数量依存关系,
318.8
xi2 (3)
0.04 0.25 1.00 2.25 9.00 20.25
32.79
yi2 (4)
28.09 114.49 1713.96 5026.81 8190.25 10000.00
25073.Hale Waihona Puke Baidu0
xiyi (5)
1.06 5.35 41.40 106.35 271.50 450.00
7 相关与回归分析
▪ 教学目的和要求: ▪ 了解相关与回归的概念;掌握直线相关、
直线回归分析的方法和正确应用;掌握 相关系数的假设检验,了解直线回归的 假设检验。 ▪ 重点、难点: ▪ 相关与回归的概念;相关系数的计算和 假设检验,直线回归方程的建立。
1
7.1 相关与回归的概念
▪ 客观事物是普遍联系的,我们在日常生 活和科学研究中,经常可以看到有些事 物间存在着一定的关系,如人的身高与 体重,温湿条件与微生物的繁殖,污染 物的排放量与环境质量等都存在着特定 的关系。事物之间的这种相互关系都涉 及到两个或两个以上的变量,只要其中 一个变量变动了,另一个或几个变量也 会跟着变动。这种两个或两个以上的变 量互相制约、互相依存的现象在环境科 学研究和环境保护实践中经常遇到