统计学课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
举 例
仍以前题为例,建立直线回归方程。在计算相关 系数时已求得如下过程数据:
X
339 Y 30800 XY 541250 X 2 6029 , , ,
由最小二乘法标准方程得回归系数的计算值为:
b n XY X Y n X 2 ( X ) 2 20 541250 339 30800 67 .82 20 6029 339 2
相关分析与回归分析
相关分析: 用相关系数来表明现象间相互依存关系的密 切程度。 回归分析:
根据相关关系的具体形态,选择一个合适的数 学模型,来近似地表达变量间的平均变化规律。
相关分析与回归分析的比较
1、联系
以具有相关关系的现象作为共同的研究对象; 在具体应用上,必须相互补充。 2、区别
研究方法和研究目的不同;
回归实际上描述的是X与Y(X)的平均值之间的依存关系 。
“回归”一词的由来
弗朗西斯· 高尔顿(Francis Galton,1822-1911)出生于英格兰伯明 翰 据皮尔逊不完全统计,著书15种,撰写各 种学术论文220篇 地理学家——远征非洲的地理探险 气象学家——观测并命名高气压 心理学家——开创了智力测量等方法 遗传学家——优生学的创始人 统计学家——现代回归与相关技术的创始人 “返祖”现象 向平均回归
Q 2 (Y a bX ) 0 a Q 2 (Y a bX )·( x ) 0 b
Y na b X
XY a X b X 2
解正规方程得:
b
n xy x y n x ( x)
2 2
a y bx
第九章
相关与回归分析
(Correlation and Regression)
§9 .1 相关分析
变量之间的数量关系
函数关系: 一一对应的确定性关系
相关关系: 两变量之间相关,但不能由一个 完全确定另一个的取值,只是在 一定范围内按某种规律变化。
相关关系经常用一定的函数形式去近似地描述。
一、相关关系的特点
进行估计。
ˆ y a bx
——y关于x的一元线性经验回归方程
a、b分别表示
0 , 1
的估计值
a ——经验回归直线的截距,表示在X为零时,Y的估计值, 即Y的起始估计值。 b ——经验回归直线的斜率,表示X每增加一个单位所引起 的Y的平均变化量。
可以看出,观测点的变化趋势近似呈直线形式,用一条 直线穿过这些点的中间部分,观测点在直线附近波动, 因而可以用一条直线较好地代表这些点的平均路径。由 此而建立的直线方程,又称之为一元线性经验回归方程, 简称为回归方程。
n 1
Sy ( y y)2 n 1
( x x )2 n 1
r
x - x y y x - x y y
2
2
直线相关系数的计算公式
设(xi,yi),是x、y 的n组观测值
r
n x
2
( x ) n y ( y )
2 2
Y b X a
n n
30800 339 67.82 390.45 20 20
得出Y对X的直线回归方程为:
ˆ Y a bX 390.45 67.82X
方程的意义
ˆ Y a bX 390.45 67.82X
回归系数a是直线的截距, b既是直线的斜率,又表示X每增加 一个单位所引起的Y的平均增加值。 b > 0时,说明Y 随X的增加而增加, X 与Y 呈正的线性相关; b < 0时,说明Y 随X的增加而减少, X 与Y 呈负的线性相关; b = 0时,Y 不随X的变动而变动,说明两者不存在线性相关。 在本例中,b = 67.82,表明工人日产量Y与工人工龄 长度X呈正的线性相关,且工人工龄长度每增加一 年,工人日产量平均增加67.82件。
所研究的变量关系有差异 。
在回归分析中,需要区分自变量和因变量。
起影响作用的变量叫解释变量或自变量(independent 用X表示; 受自变量的影响而发生相应变化的变量叫被解释变量或因变量(dependent variable ),用Y或Y(X)表示。 variable ),
①在工业企业经济统计分析中,利润额受投资额的大小 影响,因而投资额可看作是自变量,利润额可看作是因 变量。
回归分析的类型
1、根据所建立的回归方程划分:
线性回归(直线回归) 非线性回归(曲线回归) 2、根据所涉及的变量多少划分: 一元回归(简单回归)
多元回归(复回归)
§9.2
一元线性回归
一、一元线性回归模型 二、回归参数的估计
三、一元线性回归方程的评价 1、一元线性回归方程拟合程度的评价
2、一元线性回归方程显著性的检验
其中
——为X 对Y的回归方程。
b
n yx y x n y 2 ( y ) 2
a x b y
三、回归直线的拟合程度分析
拟合程度:样本观测值聚集在样本回归直线周围的紧密程度, 又称拟合优度(Goodness of fit)。
相关系数的显著性检验
要用样本相关系数r作为总体相关系数ρ的估
计值,而r仅说明样本数据的X与Y的相关程度。有
时候,由于样本数据太少或其它偶然因素,使得
样本相关系数r值很大,而总体的X与Y并不存在真
正的线性关系。因而有必要通过样本资料来对X与 y之间是否存在真正的线性相关进行检验,即检验 总体相关系数ρ是否为零。
0和1
未知参数,或称回归系数(Coefficient of regression)
是不可观测的随机误差,它是一个随机变量。
y 0 1 x
通常假定
—— 一元线性回归模型
~ N (0, 2 ),
进一步有
y ~ N ( 0 1 x, )
2
即 E( y) 0 1 x, var(y) 2 一元线性回归模型从平均意义上表达了变量y与x的统计规律性。
0
四 级 划 分 法
0.3
无直线相关
0.3 0.5 低度相关
0.5 0.8 显著相关
0.8
高度相关
注意事项
①︱r︱值很小,说明X与Y之间没有线性 相关关系,但并不意味着X与Y之间没有 其它关系,如很强的非线性关系。 ②直线相关系数一般只适用于测定变量 间的线性相关关系,若要衡量非线性相 关时,一般应采用相关指数R。
二、最小二乘法估计回归参数
最小二乘法的理论基础是样本的n个实际值y与其相应的回
ˆ Y 归估计值
的离差平方和达到最小,即:
ˆ Q (Y Y ) 2 (Y a bX ) 2 min
式中,a,b是待定参数,Q是a,b的函数,要使Q达到最小, 依据函数求极限的原理,则先求Q对a和b的偏导数,再令其 为0。即:
n xy x y
2
r
n x 2 ( x ) 2 n y 2 ( y ) 2
n xy x y
计 算 表
计算结果
直线相关系数的意义 : 1 1
0 1
正相关 负相关 零相关
1
-1
完全正相关 完全负相关
1 0
举 例
②有时两个变量可以互为因果关系,比如全社会的生产 量与消费量。这就要根据研究目的来确定自变量和因变 量。如果希望研究生产量的变化怎样影响消费量的变化, 则可将生产量定为自变量,消费量定为因变量,反之亦 然。
因变量Y是一个随机变量。
对于每个X,由于Y(X)是一个随机变量。 假设期望存在, E(Y(X))存在,令 U(X)=E(Y(X))为Y(X)对X的 回归函数,简称为回归。 “回归”一词的由来
二、 相关关系的基本形式
1. 以相关关系涉及的变量多少划分: 单相关;复相关 2. 以相关方向划分: 正相关;负相关 3. 以相关的形态划分: 线性相关;非线性相关
4.以相关的程度划分:
完全相关;不相关;不完全相关 5.以相关的性质划分: 真实相关 ; 虚假相关
三、相关关系的描述
1、相关表
相关表是一种反映变量之间相关关系 的统计表。将某一变量按其取值的大小排 列,然后再将与其相关的另一变量的对应 值平行排列,便可得到简单的相关表。
(一)相关关系的特点: 1、现象之间确实存在数量上的依存关系。 2、现象之间数量上的依存关系不是确定的。 (二)相关关系与函数关系在一定的条件下可以相互转换。 1、本来具有函数关系的变量,当存在观测误差时,其函数 关系往往以相关的形式表现出来。 2、如果我们对所研究对象有更深入的认识,便可以将影响 因素全部纳入方程,使之成为函数关系。
一、一元线性回归理论模型
假设变量X与Y之间存在线性相关关系,一般用以下数学模 型来进一步探讨Y与X之间的统计规律性。
y 0 1 x
式中,变量Y与X之间的关系由两个部分描述: 一部分是由于x的变化引起y线性变化的部分,即 0 1 x 另一部分是由其他一切随机因素引起的,记为
当 x 已知时,可以精确算出E ( y )。由于ε是随机因素, 通常就用E ( y )作为 y 的估计,故得
ˆ y 0 1 x
—— 一元线性回归方程
ˆ y
—— y 的回归估计值
ˆ y 0 1 x
回归分析的主要任务就是
通过n组样本观察值(
—— 一元线性回归方程
xi , yi )i=1,2, …,n对 0 , 1
2 2
冰淇淋吃得越多…….犯罪率就越高
在美国中西部的一个小镇,地方警察局局长发现一个有趣的 现象:冰淇淋消费量越多,犯罪率就越高。测量这两个变量,显 示他们的相关关系是正向的,并且相关程度颇高。 乔.鲍勃被选举为城市议员,他知道了这个发现并且有了 一个很好的想法,或者至少他认为他的选民会喜欢这个想法: 为什么不在夏天这几个月限制冰淇淋的消费量,以便使犯罪率 下降?听起来很合理! 显然,仅仅因为冰淇淋消费量和犯罪率一起增长(或一起 下降)并不意味着一个变量的变化会导致另一个变量的变化。 这两个变量一定是共享什么,或者说,一定存在什么变量同时 和冰淇淋消费量以及犯罪率水平相关。因为它们同时发生,所 以建立了相关的假象。 这是计算、理解和解释相关系数时需要注意的最重要的事。
相关系数的统计检验
1、提出假设 • H0:总体中变量x与变量y相互独立,即ρ=0;
•源自文库
H1:总体中变量x与变量y存在线性相关,即ρ≠0 。
2、计算检验统计量
n2 tr ~ t n 2 2 1 r
3、根据显著性水平 和自由度(n-2)查出临界值 t
4、进行决策:
2 2
2
若 - t t t ,接受原假设; 若t t 或t -t ,拒绝原假设。
现实世界的问题都是相互联系的。不讨论变量之间 的关系,就无从谈起任何有深度的应用;而没有应 用,前面讲过的那些基本概念就仅仅是摆设而已。
人们每时每刻都在关心事物之间的关系。 比如,职业种类和收入之间的关系、政府投入和 经济增长之间的关系、广告投入和经济效益之间 的关系、治疗手段和治愈率之间的关系等等。 这些都是二元的关系。 还有更加复杂的诸多变量之间的相互关系, 比如企业的固定资产、流动资产、预算分配、管 理模式、生产率、债务和利润等诸因素的关系是 不能用简单的一些二元关系所描述的。
注 意
ˆ y a bx ——为Y对X的回归方程。
对某个给定的自变量X值,可将其代入回归方程得出 因变量Y的回归估计值。而不能反过来由Y去推算X。 如果X和Y两个变量可以互为因果关系,要研究X随Y的 变动而发生变动的情况,则需建立X对Y的回归方程。即以 Y为自变量,X为因变量。
ˆ x a by
X
Y
x1
y1
x2
y2
…
…
xi
yi
…
…
xn
yn
简单相关表
2、相关图(散点图)
散点图
四、相关关系的测度——Pearson相关系数
在统计研究中,对现象间相关关系的 密切程度可用统计指标相关系数r来测定。
设计思路
定义公式
计算公式
设计思路
定义公式
总体相关系数 样本相关系数
S
Sx
2 xy
x - x y y