统计学第八章 相关与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关系数的显著性检验
(检验的步骤)
1. 2. 3. 4. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用R.A.Fisher提出的 t 检验 检验的步骤为
提出假设:H0: ;H1: 0
t r 计算检验的统计量:
• 若t>t,拒绝H0 • 若t<t,不拒绝H0
1. 对变量之间线性关系密切程度的度量指标 2. 若相关系数是根据总体全部数据计算的,称 为总体相关系数,记为 3. 若是根据样本数据计算的,则称为样本相关 系数,记为 r
(二)相关系数的计算和应用
用积差法计算样本相关系数的公式为:
xy ( x x )( y y ) r x y n x y xy 协方差 xy
§10.2相关关系的描述与测定
一、散点图 二、直线相关的测定——相关系数
一、散点图
(scatter diagram)
非线性相关
完全正线性相关
完全负线性相关
确定显著性水平,并作出决策
n 2 ~t( n 2 ) 2 1 r
相关系数的显著性检验
(例题分析)
对不良贷款与贷款余额之间的相关系数进行显著性检 (0.05) 1. 提出假设:H0: ;H1: 0 2. 计算检验的统计量
25 2 t 0 . 8436 7 . 5344 2 1 0 . 8436
相关系数分子和分母的意义
2.标准差
x
与
y
yy x x x x yy x y r n n x y
这意味着,X、Y于各自平均值的离差,分别用 各自标准差为尺度加以标准化,然后再求标准数量的 协方差。
散点图
(例题分析)
散点图
(例题分析)
14
不 良 贷 款
14 12 10 8 6 4 2 0
0 100 200 300 400
12 10
不良贷款
8 6 4 2 0 贷款余额 不良贷款与贷款余额的散点图
14 12
0
10
20
30
累 计 应 收 贷 款 不 良 贷 款 与 累 计 应 收 贷 款 的 散 点 图
( x x )( y y ) n
相关系数分子和分母的意义
1.协方差----
xy
xy
x x y y n
意义: 1.显示与是正相关还是负相关 2.显示与相关程度的大小 但是协方差是以绝对数表现的均值,其数值受到 变量值大小的影响,而且有计量单位,不便于进行比 较,因此仍然不完善。
负线性相关
不相关
正线性相关
散点图
(例题分析)
【例】一家大型商业银行在多个地区设有分行 ,其业务主要是进行基础设施建设、国家重 点项目建设、固定资产投资等项目的贷款。 近年来,该银行的贷款额平稳增长,但不良 贷款额也有较大比例的提高,这给银行业务 的发展带来较大压力。为弄清楚不良贷款形 成的原因,希望利用银行业务的有关数据做 些定量分析,以便找出控制不良贷款的办法 。下面是该银行所属的 25 家分行 2002 年的 有关业务数据
回归分析与相关分析的区别
1. 相关分析中,变量 x 变量 y 处于平等的地位;回 归分析中,变量 y 称为因变量,处在被解释的地 位,x 称为自变量,用于预测因变量的变化 2. 相关分析中所涉及的变量 x 和 y 都是随机变量; 回归分析中,因变量 y 是随机变量,自变量 x 可 以是随机变量,也可以是非随机的确定变量 3. 相关分析主要是描述两个变量之间线性关系的密 切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
r
t 2 n 2 t 2
2
这就是在显著性水平下所决定的相关系数 临界值,该值可通过相关系数的临界值表查得, 进而与样本相关系数比较进行检验。 例如上例查得:rα =0.396,而 r= 0.8436> rα ,所 以拒绝原命题,不良贷款与贷款余额之间存在着 显著的正线性相关关系。
§10.3
父亲身高(y)与子女身高(x)之间的关系
收入水平(y)与受教育程度(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系
二、相关关系种类
完全相关 不完全相关 不相关
或化简为 r
n n x x y y
2 2 2 2
n xy x y
相关系数
(取值及其意义)
1. 2. r 的取值范围是 [-1,1] |r|=1,为完全相关
r =1,为完全正相关 r =-1,为完全负正相关
3. 4. 5. 6.
r = 0,不存在线性相关关系相关 -1r<0,为负相关 0<r1,为正相关 |r| 越趋于 1 表示关系越密切; |r| 越趋于 0 表示关 系越不密切
y
3.5 3 2.5 2 1.5 1 0.5 0 1 2 3 4 5 x
y 3.5 3 2.5 2 1.5 1 0.5 0 1 2 3 4 5 x
从图中可见,两项资料的变异情况不同。 r1==1 r2=0.89
相关系数
(计算化wenku.baidu.com公式)
化简后的计算公式
L ( x x )( y y ) xy r 2 2 L L ( x x ) ( y y ) x y
当样本数据来自正态总体时,随着n的增大,r 的 抽样分布趋于正态分布,尤其是在总体相关系数 很小或接近0时,趋于正态分布的趋势非常明显。 而当远离0时,除非n非常大,否则r的抽样分布呈 现一定的偏态。
2. 当为较大的正值时,r 呈现左偏分布;当为 较大的负值时,r 呈现右偏分布。只有当接近 于0,而样本容量n很大时,才能认为r是接近 于正态分布的随机变量
一元线性回归
一. 什么是回归分析? 二. 一元线性回归模型 三. 回归直线的拟合优度
一、什么是回归分析?
(Regression)
1. 从一组样本数据出发,确定变量之间的数学 关系式,进而确定一个或几个变量(自变量 )的变化对另一个特定变量(因变量)的影 响程度。 2. 对这些关系式的可信程度进行各种统计检验 ,并从影响某一特定变量的诸多变量中找出 哪些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的 取值来预测或控制另一个特定变量的取值, 并给出这种预测或控制的精确程度
3.
根 据 显 著 性 水 平 = 0.05 , 查 t 分 布 表 得 t(n2)=2.0687 由于t=7.5344>t(25-2)=2.0687,拒绝H0,不良贷 款与贷款余额之间存在着显著的正线性相关关系
相关系数的显著性检验
(例题分析)
各相关系数检验的统计量
为检验起来方便,利用变量t与r之间的关系,可 以得到以下等式:
函数关系
(几个例子)
函数关系的例子
某种商品的销售额(y)与销售量(x)之间的关系可 表示为 y = px (p 为单价) 圆的面积(S)与半径之间的关系可表示为S=R2 企业的原材料消耗额(y)与产量(x1) 、单位产量 消耗(x2) 、原材料价格(x3)之间的关系可表示为 y = x1 x2 x 3
§10.1 相关分析的意义和内容
一. 相关关系的概念 二. 相关关系种类 三. 相关分析的内容
一、相关关系的概念
是指变量间的不确定的依存关系。
函数关系
变量间的关系
相关关系
(一)函数关系
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完 y 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值,则称 y 是 x 的 函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 3. 各观测点落在一条线上 x
相关系数
(取值及其意义)
完全负相关 无线性相关 完全正相关
-1.0 -0.8 -0.5 -0.3 0 -0.3 +0.5 +0.8 +1.0
r
负相关程度增加
正相关程度增加
相关系数
(例题分析)
(三) 相关系数的显著性检验
( r 的抽样分布)
1. r 的抽样分布随总体相关系数和样本容量的大 小而变化
回归模型的类型
回 归 模 型
一 元 回 归 多 元 回 归
线 性 回 归 非 线 性 回 归 线 性 回 归 非 线 性 回 归
二、一元线性回归模型
(一)一元线性回归
1. 涉及一个自变量的回归 2. 因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量 (dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变 量称为自变量 (independent variable) ,用 x 表示
第10章 相关与回归分析
§10.1 §10.2 §10.3 §10.4 相关分析的意义和内容 直线相关的测定 一元线性回归分析 利用回归方程进行估计和预测
学习目标
1. 掌握相关系数的分析方法
2. 掌握一元线性回归的基本原理和参数的 最小二乘估计 3. 了解回归直线的拟合优度的分析 4. 利用回归方程进行估计和预测
3. 因变量与自变量之间的关系用一条线性方 程来表示
(二)一元线性回归模型
1. 描述因变量 y 如何依赖于自变量 x 和误差项 的 方程称为回归模型 2. 一元线性回归模型可表示为 y = b b1 x
14 12
不良贷款
8 6 4 2 0 0 10 20 30 40 贷款项目个数
不良贷款
10
10 8 6 4 2 0 0 50 100 150 200 固定资产投资额
不良贷款与贷款项目个数的散点图
不良贷款与固定资产投资额的散点图
二、直线相关的测定——相关系数
(一)相关系数(correlation coefficient)的概念
?
回归一词是 怎么来的?
趋向中间高度的回归
回归这个术语是由英国著名统计学家Francis Galton在19世纪末期研究孩子及他们的父母的身高 时提出来的。Galton发现身材高的父母,他们的孩 子也高。但这些孩子平均起来并不像他们的父母那 样高。对于比较矮的父母情形也类似:他们的孩子 比较矮,但这些孩子的平均身高要比他们的父母的 平均身高高。 Galton把这种孩子的身高向中间值靠 近的趋势称之为一种回归效应,而他发展的研究两 个数值变量的方法称为回归分析。
(二)相关关系
(correlation)
1. 变量间关系不能用函数关 y 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 各观测点分布在一条线周 x 围
相关关系
(几个例子)
相关关系的例子
标准差的意义:
1.使相关系数变为相对数,便于不同资料之 间对相关程度进行比较。 2.是相关系数的绝对值不超过1。
资料1
资料2
X 1 2 3 4 5
Y 1.0 1.5 2.0 2.5 3.0
X 1 2 3 4 5
Y 1.25 1.00 2.00 3.00 2.75
( 1 3 )( 1 . 0 2 . 0 ) ( 5 3 )( 3 . 0 2 ) 1 xy 1 5 ( 1 3 )( 1 . 25 2 . 00 ) ( 5 3 )( 2 . 75 2 . 00 ) 1 xy 2 5
相关程度
相关方向
正相关 负相关
相关形式
线性相关 非线性相关
单相关 影响因素多少 复相关
三、相关分析的内容
相关分析:就是研究两个或两个以上变量之间 相互关系的统计分析方法。 内容: 1.确定相关关系的存在、相关方向和存在形 式、密切程度(狭义相关分析) 2.确定相关关系的数学表达式 (回归分析) 3.利用建立的模型进行预测和控制(应用)