怎样分析变量间的关系

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

怎样分析变量间的关系

变量间的相关关系

一、变量间关系的度量

1.变量间的关系:

函数关系:(1)是一一对应的确定关系

(2)设有两个变量

相关关系:(1)变量间关系不能用函数关系精确表达(2)变量间存在着一定的客观规律

二、相关的种类

1.完全相关、不完全相关、不相关

2.正相关与负相关

3.线性相关与非线性相关

4.单相关与复相关

三、用图形来显示变量间的关系

做散点图

四、测度变量间的关系强度----计算相关系数

1. 相关系数的概念

是在线性相关的情况下,用来说明相关关系密切程度的统计分析指标。

2. 相关系数的计算:

3. 根据相关系数判断相关的程度 ()[]()[]

∑∑∑∑∑∑∑---=2222y y n x x n y x xy n γ

相关系数的取值是在+1和-1之间,即11+≤≤-r 。若10+≤≤r ,表示X 与Y 之间存在正的相关关系,若01≤≤-r ,表示X 与Y 之间存在负的相关关系;若r-+1,,表示X 、Y 之间为完全正相关关系,若r=-1,表示X 与Y 之间为完全负相关关系,当r=0时,表示Y 的取值与X 无关,即二者之间不存在线性相关关系,但不能说明两者之间没有任何关系。它们可能会存在非线性相关关系。

五、总体中也存在这样的关系吗?----假设检验

1. 为什么要对相关系数进行显著性检验?

因为两个变量之间存在相关关系是根据样本计算出来得出的结论,这一结论是否正确还吸引仅仅系检验,相关系数是一个随机变量,由于是随机的,所以具有一定的偶然性,两个不相关的变量,其相关系数也可能较高,要从样本相关系数判断总体中是否也有这样的关系,则

需要对相关系数进行显著性检验后才能下结论。

2.显著性检验的步骤:

第一步,提出假设

第二步,计算检验的统计量

212

r n r t --=

第三步,进行决策。

六、建立变量间的数学关系式

1.回归模型:εββ++=x y 10

2.回归方程:x y E 10)(ββ+=

3.估计回归方程:x y 10ˆ

ˆˆββ+= 用最小平方法求参数10ˆ

ˆββ。

用Excel 计算统计量的方法。 ()

n x x n

y

y x b y x n x y x n xy x y ∑∑∑∑∑∑∑=

=-=--=+=0

221ˆ1

.ˆ11ˆˆˆˆββββ

见教材。

七、回归效果的度量

SST —总平方和,反映因变量取值的总的波动状况。

SSR---回归平方和,反映有自变量X 的变化引起Y 的变化。

SSE —残差平方和,反映除了X 对Y 的影响之外的其它因素的影响。

三者的关系:

SST=SSR+SSE

回归平方和占总平方和的比例称为判定系数:

SST SSR

r 2

其实际意义是:在因变量取值的总变差中可以由自变量X 取值所解释的比例。

八、检验数学关系式的可信程度

1.为什么要对回归方程进行显著性检验?

回归方程通常是根据样本数据建立,建立回归方程有很多假定,如假定因变量与自变量之间有线性关系,对回归模型中的误差项也有许多假定。这些假定是否成立,只有在方程通过显著性检验后才能回答,所以要对回归方程进行显著性检验。

2.回归方程显著性检验包括哪些内容?

包括两方面的内容:一是线性关系的检验,也称为总体的显著性检验,用于检验因变量与自变量之间是否存在线性关系;二是回归系数的检验,检验自变量对因变量的影响是否显著。在一元回归分析中,两种检验是等价的。

3.进行线性关系显著性检验的步骤:

第一步,提出假设

第二步,计算统计量F

第三步,作出统计决策。当αF F ≥时,拒绝原假设。

更简单的办法:见教材144页。

九、用自变量来估计因变量

1.点估计---是根据建立的回归方程x y 10ˆ

ˆˆββ+=,对于自变量的一个特定值X 求出因变量Y 的一个估计值。

2.区间估计---利用估计的回归方程,对于x 的与个特定值0x ,求出Y 的一个估计值的区间就是 区间估计。

置信区间估计:它是对x 的一个给定值,求出y 的平均值的估计区间。

预测区间估计:它是对x 的一个给定值,求出y 的个别值的估计区间。

名词解释

1.相关系数:是在线性相关的情况下,用来说明相关关系密切程度的统计分析指标。

2.总变差平方和:SST —总平方和,反映因变量取值的总的波动状况。

3.回归平方和:SSR---回归平方和,反映有自变量X 的变化引起Y 的变化。

4.残差平方和:SSE —残差平方和,反映除了X 对Y 的影响之外的其它因素的影响。

5.判定系数:回归平方和占总平方和的比例称为判定系数:

SST SSR

r =2

其实际意义是:在因变量取值的总变差中可以由自变量X 取值所解释的比例。

6.点估计:是根据建立的回归方程

x y 10ˆˆˆββ+=,对于自变量的一个特定值X 求出因变

量Y的一个估计值。

7.区间估计:利用估计的回归方程,对于x的与个特定值0x,求出Y的一个估计值的区间就是区间估计。

思考题

1. 解释相关关系的含义

⑴变量之间确实存在着数量上的依存关系;⑵变量之间数量上的关系是不确定、不严格的依存关系。

2. 相关分析主要解决哪些问题?

⑴变量之间是否存在关系?⑵如果存在关系,它们之间是什么样的关系?⑶变量之间的关系强度如何?⑷样本所反映的变量之间的关系能否代表总体变量之间的关系?

相关文档
最新文档