第14章 相关分析和回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
开篇案例:数据挖掘在定类变量相关性分析中的应用
❖ 数据探索性分析在研究分析中有着巨大的作用,同时在做探索性 分析时,相关系数往往是被经常采用的工具用以衡量变量与变量 之间的关系,然后决定是否分析这些变量。
❖ 相关系数用来描述两个变量或两组变量之间的接近程度的量化指 标,有着广泛的应用。
❖ 数据预分析就是要研究定类变量数据之间的关系,从而找出认为 有价值的信息。
第14章
相关分析和回归分析
教学目标:
1.了解散点图和相关系数的概念 2. 了解等级相关的概念 3. 描述简单线性回归模型 4. 描述多元回归分ቤተ መጻሕፍቲ ባይዱ模型 5. 了解使用回归分析时应注意的
问题
第14章 相关分析和回归分析
❖了解散点图和相关系数的概念 ❖了解等级相关的概念 ❖描述简单线性回归模型 ❖描述多元回归分析模型 ❖了解使用回归分析时应注意的问题
相关分析和回归分析概述
❖ 相关分析和回归分析都是用于研究变量之间关系的方法,而 且两者经常替换使用。
❖ 两者还是存在一些差异 。
发给相关分析旨在测定变量间关系紧密的程度,因而关注的是评 价对象两者之间的相对变动,其中哪个是自变量,哪个是因变量, 没有必要区分;它们各自单独的变化状况也不用清地加以确定或 限制。
❖ 在这些等级相关系数中,以司庇而曼(C.Spearman)的等级相关运
用最为普遍。其公式为:
r
6 d 2i
其中,
r s1
di:各对数据的等级差异;
i 1
n(n2
1)
n:样本的数据总数。
❖ 司庇而曼相关系数是针对两个序数变量的;
❖ 其中每个变量的数据已按一定标准划分成1至n个等级;
❖ 如果d2i的和为0,那么rs=1。也就是说,此时两个变量的等级是 等价的;
❖ 在数据挖掘中,定类变量之间的相关性往往使用关联分析进行计 算,关联分析是使用一种支持度的概念来支持某件商品值不值得 分析。
❖ 比如假设商品 A 共出现N(A)次、同时商品B 共出现N(B)次, 对于N(A and B)是用来表示A 和B 两种物品同时出现的次数, 那么A 和B的支持度即为:N(A and B)/MIN(N(A),N (B)),这样一种支持度的优点是可以全面的挖掘数据内部的信 息,即可以更加精细全面地把所有值得分析的数据关系全部呈现 出来,否则可能会因为上式中分母的大小影响对于重要数据关系 的挖掘。
y
0 正相关
x
y
0 不相关
x
y
0 负相关
x
y
0 曲线相关 x
相关系数
❖ 现假定观测到n个变量x,y的组合值,分别为(x1,y1)(x2,y2)…(xn,yn)。
y ❖ 容易得到x,y的平均数 x , 。 ❖ 如果把坐标移到( x , y ),则新坐标为: xi xi x, yi yi y。
❖ 该相关系数可以用来分析定类变量之间的相关性大小,并且同时 可以给出一个定量的数值,然而系数在应用上需要区别变量之间 的关系,有对称和不对称关系两种计算方式,于是在计算时就要 特别注意变量之间的关系。
❖ 统计软件SPSS 没有智能挖掘变量之间关系的功能,所以在使用 时局限性很大,2 个变量就需要分析2 次、3 个变量之间的关系 就需要分析6 次,4 个变量则需要分析12 次才能得出哪两个变量 之间的相关性最强。
y
x
Q
(x ,y ) x
相关系数
n
❖ 变量的相关可以用 xiyi 来表示 。 n i 1 xiyi r 1 i1 n x y
❖ X
❖ y
❖r
--- 变量x的标准差; --- 变量y的标准差; --- 变量的相关系数
相关系数
❖ 为了简化公式,r的公式还了演变为:
r
1 n
xi
yi
x
y
❖ r的值在-1和1之间变化。 x y
相关系数表
r=1 0<r<1
r=0 -1<r<0
r=-1
完全正相关 正相关 不相关 负相关
完全负相关
等级相关
❖ 无法用精密数量确定事物大小,惟一可行的方法是以等级或次序 对事物进行排序,如才智高低、事态轻重、色泽深浅、效率大小
以及味道的好坏等;
❖ 有时候即使是精密的数据,也采用等级来测定它们之间的相互关 系 ,其关系紧密程度的衡量指标就叫等级相关系数。
回归分析则希望明确建立一个方程关系式,借助一个或多个变量 (自变量)来推测另一个变量(因变量)的变化趋势。如果某个或多个 自变量本身变动也处于不确定中,或者为随机变量,自变量的概 率分布情况就必然要通过实验加以确定和限制。
相关分析和回归分析概述
❖ 简单回归 :只包括一个自变量和一个因变量的回归分析。 ❖ 多元回归分析 :包括两个或两个以上自变量的回归分析 。 ❖ 线性回归 :变量间的关系可以用一条直线近似表示出来 。 ❖ 曲性回归 :变量间的关系是用曲线近似表示出来的 。
❖ 在新坐标的第一、第三象限里,x´y´的乘积为
y
❖ 正值;在第二、第四象限晨,它们的乘积x´y´
❖ 均为负值。
❖ 当x、y为正相关时,n也就是绝大多数点落于
❖ 一、三象限时, xiyi为正;
❖
若x,y为负n 相关,i即1 绝大多数点落于二、四象
❖
限时, xiyi 为负;
❖
若x、y对i应1 的点散布于四个象限,则上值接近于0。
❖ rs值由+1(完全正相关)变化到一1(完全负相关),其中若rs=O意味 着彼此不相关。
样本相关系数的分布和测验
❖ 在假定两变量(x,y)的组合总体适合于正态分布(三度空间 的立体正态曲面)的条件下,z与y的相关系数r的抽样分布 是随着两个因素——样本单位数n与总体相关系数p的不同 而变化着。
散点图 (scatter diagram)
❖ 探讨变量x、y的相关关系时,常须先做出散点图。 ❖ 以数标轴上的点代表x、y的一对观察值,可以直观地考察变量之间
联系程度,并且有助于选择合适的估计模型。 ❖ 正的相关关系(positive correlation) :自变量x增加,因变量
y也随之增加。 ❖ 负相关系(negative correlation) :x增加,y减少。 ❖ 无相关(non-correlation) :x的变化不影响y的变动。
❖ 在对定类变量之间的相关性分析可以直接使用交叉表分析方法, 不过这种方法只能给出变量之间是否存在相关性,却不能准确地 反映出变量之间相关性的大小。
❖ 于是在用于比较变量之间相关性大小的关系时,这种方法无法提 供有效的信息,此时可以采用系数法来判断依据某一变量对另外 一个变量进行预测时的误差大小。