相关分析与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

19
相关与回归
◆相关与回归分析的步骤
确定变量之间有无相关关系及呈现的形态,用定性分析、 相关表或相关图。
确定变量之间相关关系的密切程度,用相关系数。 建立变量之间变动关系的方程式,用最小二乘法建立变量
之间的回归方程。 测定因变量估计值的可靠性,计算估计标准误差。
相关与回归
20
直线相关
直线相关的应用
前面我们讨论了身高和体重呈正相关关 系,随着身高的增加,体重也在增大。 那么,身高每增加1厘米,体重增加多少 克呢?
上面的相关关系分析不能提供给我们需
要的答案。这些要用直线回归的方法来
解决。
相关与回归
43
相关与回归
44
直线回归
当我们知道了两个变量之间有直线相关关系,并且 一个变量的变化会引起另一个变量的变化,这时, 如果它们之间存在准确、严格的关系,它们的变化 可用函数方程来表示,叫它们是函数关系,它们之 间的关系式叫函数方程。
sr
1 r2
1 r2
n2
=n-2
相关与回归
39
H0 : =0
H1 : ≠0
=0.05
r=0.792, n=10, 代入公式 t= r
t=3.67
n2 1 r2
查t值表, t0.05(8)=2.045
=n-2=10-2=8
查t值表, t0.05(8)=2.756, 上述计算t=3.67>2.045,由t 所推断的P值小于0.05,按=0.05拒绝接受,认为身
●您的性别: A、男 B、女 ●您的年龄: ●您的家庭人口数: ●您的家庭年收入:
相关与回归
8
一、变量
相关与回归
变量 类型
举例 说明
四种变量的特征和例子
定量变量
定序变量
定距变量
定比变量
1、树、房子、出租 车等
2、性别:男、女
3、政党:自由党、 共产党等
4、宗教:基督教、 回教、印度教等
1、收入:高水平、 1、温度: 中等水平、低水平 摄氏度、华 2、社会地位:上层、 氏度 中层、下层
●定类变量也称为名义变量,只测量各种分类之间的差别,它只 能对变量进行类别差测度。(性别、企业类型,类别区别)
●定序变量是对处于某种状态不同强度和序次水平的测量,或者 说它是对同一维方向上不同序次水平的测量(学位:本科硕士; 可以进行等级比较)
●定距变量:测量单位是一致的,它不仅可以对两个观察点在序 次上进行测量,还可以对两个观察点之间或两个序次之间的间 距进行测量。(温度,零点是人为定义,相对零加减运算)
●如我们取某地区男子的身高为样本调查(数据如下表),从下
表可以看出身高的取值是连续变化的。这个变量就是连续型变

身高分组(CM)
人数(人)
148-154
4
154-160
12
160-166
44
166-172
64
172-178
56
178-184
16
184-190
4
合计
200
相关与回归
4
相关与回归
2、定类变量、定序变量、定距变量和定比变量
r 0.792
相关与回归
32
例2
已知某高校10名大二学生统计课X和营销课Y 的成绩,根据有关数据,说明两者的关系程 度 。 ∑ X=756 , ∑ Y=837 , ∑ X2=57352 , ∑Y2=70245,∑XY=63369。
相关与回归
33
例2
◎解:
r
n xy x y
n x2 ( x)2 n y2 ( y)2
相关与回归
31
例1
◎ 解 : 已 知 , ∑ X=1725 , ∑ Y=485 ,
∑X2=298525, ∑Y2=23609 ,∑XY=83891
r
n xy x y
n x2 ( x)2 n y2 ( y)2
r
10838911725 485
10 298525 17252 10 23609 4852
相关与回归
36
相关系数的假设检验
上例中的相关系数r等于0.792,说明了10名样本中身高 和体重之间存在相关关系。但是,这10名只是总体中的 一个样本,由此得到的相关系数会存在抽样误差。
因为,总体相关系数()为零时,由于抽样误差,从
总体抽出的10名,其r可能不等于零。
相关与回归
37
相关系数的假设检验
Linear Correlation
相关与回归
21
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。 例如,每人的身高和体重。然后在直角坐 标系上描述这些点,这一组点集称为散点 图。
相关与回归
22
为了研究父亲与成年儿子身高 之间的关系,卡尔.皮尔逊测 量了1078对父子的身高。把 1078对数字表示在坐标上,如 图。用水平轴X上的数代表父 亲身高,垂直轴Y上的数代表 儿子的身高,1078个点所形成 的图形是一个散点图。它的形 状象一块橄榄状的云,中间的 点密集,边沿的点稀少,其主
相关与回归
17
相关与回归
相关分析:从数量上分析现象之间相关关系的理论和方法 ◎函数关系(确定性关系)
对于某一变量的每个数值都有另一变量的完全确定的值与
之对应。 y ax2 bx c(抛物线),x 2 y2 1(椭圆) 49
◎相关关系(非确定性关系)
现象之间存在一定的依存关系,但不是一一对应的关系, 即相随变动关系。
高与体重之间有正相关关系。
相关与回归
40
直线相关的应用
在确实存在相关关系的前提下,如果r的绝 对值越大,说明两个变量之间的关联程度 越强,那么,已知一个变量对预测另一个 变量越有帮助;如果r绝对值越小,则说明 两个变量之间的关系越弱,一个变量的信 息对猜测另一个变量的值无多大帮助。
相关与回归
41
●定比变量:是最高级的变量。可以计算两个观察点之间的比值。
有一个固定的零点,是一个绝对的尺度。如工资、年龄、重量

相关与回归
5
定类测量举例:性别

女性

男性
定序测量举例:对宗教的认知,“对你来说,宗教有多重要?”

不重要


一般
ቤተ መጻሕፍቲ ባይዱ

比较重要 非常重要

相关与回归
6
定距测量举例:IQ
95
3、态度:完全同意、 同意、中立、不同 意、完全不同意
1、高度:厘米 2、工资:元 3、年龄:岁 4、体重:公斤
相关与回归
9
X2
一、变量
相关与回归
四种变量的区别
类型
定类 定序 定距 定比
类别 差 是 是 是 是
序列 间距差 差<> <>+否否 是否 是是 是是
带零点的比值 <>+-*/ 否 否 否 是
◎ 相关关系与函数关系因条件改变可以互相转化。
相关与回归
18
相关与回归
◆相关关系的种类
按相关程度可分为:完全相关、不完全相关、完全不相关 按相关方向可分为:正相关、负相关 按变量多少可分为:单相关、复相关 按相关形式可分为:线性相关、曲线相关 以上相关类型均可以交叉出现。
相关与回归
r的绝对值越接近1,两变量的关联程度越强,r 的绝对值越接近0,两变量的关联程度越弱。
相关与回归
26
相关与回归
27
相关与回归
28
相关与回归
29
相关与回归
30
例1
已知某校10名高中生身高X与体重Y部分资 料 : ∑ X=1725 , ∑ Y=485 , X2=298525 , ∑Y2=23609,∑XY=83891。身高与体重是否 相关?

2
2
X 2
X n
Y 2
Y n

相关与回归
25
相关系数
正相关时,r值在0和1之间,散点云图是斜向上 的,这时一个变量增加,另一个变量也增加;
负相关时,r值在-1和0之间,散点云图是斜向下 的,此时一个变量增加,另一个变量将减少。
要部分是一个椭圆。
相关与回归
23
相关系数
相关系数是反映变量之间直线相关条件下相互密 切程度的指标。
样本的相关系数用r,r的值在-1和1之间,可以 是此范围内的任何值。
相关与回归
24
( X X )(Y Y)
r

X.Y XY
n
( X X )2 (Y Y)2
相关与回归
1
一、变量
相关与回归
●变量就是指具有可测量性的概念,其属性在幅度和强度上的 变化程度可以加以度量,如问卷中所提出的问题;
●变量可以通过主观数据或客观数据来测量。比如重量、出席 率、温度等都可以客观测量。态度、感情、感觉则可以通过 主观的数据来测量;
●对社会事务的测量有不同种类、不同层次的变量,根据变量 层次种类不同统计描述分析也会有所不同。
操作化
饭菜的质量与服 务态度
宿舍的人均面积
娱乐活动场所的 多少
(具体指标)
相关与回归
14
溺爱孩子 (抽象概念)
操作化
不注意培养孩子的 生活自理能力
不注意培养孩子的 劳动习惯
对孩子过分迁就
物质上尽量满足
相关与回归
15
相关与回归
“相关”一词最早由英国著名生物学家、 统 计 学 家 高 尔 顿 ( Galton ) 提 出 。 1889 年在《自然遗传》一书中他不仅阐述了 “相关”的概念,还提出并计算了两个 变量的“相关系数”,后来他还提出了 “回归”的概念。
相关与回归
10
相关与回归
◆ 研究者感兴趣的变量通常不止一个,寻找变量间的关 系是管理定量分析的首要目的。
◆哲学告诉我们,客观事物之间往往是相互联系和相互 依赖的。
◆ 统计学上用“相关关系”是说明事物之间的关系程度。
如发放购物卷和增加消费;家电下乡活动与扩大农村
消费等、农村公共产品管理绩效与农民满意度。
相关与回归
16
相关与回归
高尔顿在研究孩子及他们父母的身高时发现, 身材高的父母,他们的孩子也高。但这些孩子 平均起来并不像他们的父母那样高。对于比较 矮的父母情形也类似:他们的孩子比较矮,但 这些孩子的平均身高要比他们的父母的平均身 高高。高尔顿把这种孩子的身高向中间值靠近 的趋势称之为一种回归效应,而他发展的研究 两个数值变量的方法称为回归分析。
相关与回归
11
现状描述 中学生追星
的程度
原因分析
追星行为的心 理原因探索
相关与回归
追星 现象
关系研究 追中星行学为生和追学星习 成绩的之程间度关系
对策研究
如何有效引导 追星行为
12
同情心 (抽象概念)
操作化
主动帮助盲人过 街
主动给讨饭者钱 物
主动向灾区捐款
(具体指标)
相关与回归
13
生活满意度 (抽象概念)
相关与回归
2
相关与回归
1、离散型变量和连续型变量
●如我们取某地区家庭人口数为样本调查(数据如下表),从下
表可以看出每个家庭的人数只能取整数。这个变量就是离散型
变量
家庭人口数(人) 家庭数(户)
1
27
2
130
3
340
4
154
5
95
6
30
7
15
8
6
相关与回归
9
1
3
相关与回归
1、离散型变量和连续型变量
100
105
110
115
定比测量举例:收入

¥0 ¥10,000 ¥20,000 ¥30,000 ¥40,000 ¥50,000
图1 测量层次
相关与回归
7
相关与回归
一、变量
●您的政治面貌:A、中共党员 B、民主党派 C、共青团员 D、群众
●您的文化程度: A、不识字或识字很少 B、小学 C、初中 D、高中 E、中专 F、大专 G、本科 H、硕士
所以,要判断该样本的r是否有意义,需与总体相关 系数=0进行比较,看两者的差别有无统计学意义。
这就要对r进行假设检验,判断r不等于零是由于抽 样误差所致,还是两个变量之间确实存在相关关系。
相关与回归
38
对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:
t r0 r r n2
直线相关的应用
一般说来,当样本量较大(n>100),并对 r进行假设检验,有统计学意义时:
r的绝对值大于0.7,则表示两个变量高度 相关;
r的绝对值大于0.4,小于等于0.7时,则表 示两个变量之间中度相关;
r的绝对值大于0.2,小于等于0.4时,则两 个变量低度相关。
相关与回归
42
r
10 63369 756837
10 57352 7562 10 70245 8372
r 0.475
相关与回归
34
相关与回归
问题:我们能否得出结论说明身高和体重之 间呈正相关,相关系数是0.792;为什么?
相关与回归
35
相关与回归
问题的提出:如果两个变量是互相独立的,则两 个总体的相关系数ρ=0(ρ希腊字母,读rou), 从理论上讲,来自两个总体的样本相关系数r也 应为0。但实际上由于抽样误差的存在,r往往不 为0。面对一个相关系数r≠0的情况,如何判断 它们的总体是否相关呢?有何理论依据呢?可以 借助假设检验判断。
相关文档
最新文档