资料的统计分析--双变量分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分解成若干个两变量间的关系,或者说,多个变量之间的关系可
以用若干个两变量间的关系来描述。
如图:四种现象之间的关系,就可以分解成三个两变量之间的关 系。
社会流动程度
女性就业情况
离婚现象
青少年犯罪现象
两变量之间的关系可以分为相关关系与因果关 系。
一、相关关系
1、概念:两个变量之间的相关(correlation)关系指 的是当其中一个变量发生变化时(或取值不同时), 另一个变量也随之发生变化(取值也不同)。反过来 也一样。
第二节 交互分类
探讨两个定类变量(或一个定类,一个定序变量)之 间关系的方法。
一、交互分类的意义与作用 所谓交互分类(cross classification),就是将调查所
得的一组数据按照两个不同的变量进行综合的分类。 交互分类可以较为深入的描述样本资料的分布状况和
内在结构。更重要的是,交互分类可以对变量之间的 关系进行分析和解释。 交互分类所适用的变量层次是定类变量和定序变量。
第三节 其他层次变量的相关测量与检验
3、定距变量与定距变量
当资料是分组资料时候 公式为:
f 为各组所对应的频数
第三节 其他层次变量的相关测量与检验
3、定距变量与定距变量
皮尔逊相关系数可以采用F检验的方法, 也可采用t检验的方法,因为F=t2
第三节 其他层次变量的相关测量与检验
注意:
本章思考题
1、名词解释:相关关系、因果关系、交 互分类、消减误差比例、回归分析
2、课后练习题。
第三节 其他层次变量的相关测量与检验
要将随机样本中有关两个定序变量间关系的结 果推论到总体,同样必须对其进行统计检验, Gamma系数的抽样分布在随机抽样和样本规 模比较大的情况下,近似于正态分布,因此可 以用Z检验的方法进行。将G值转换为Z值的公 式为:
第三节 其他层次变量的相关测量与检验
2、定类变量(定序变量)与定距变量
χ2 检验的弱点: χ2 值的大小不仅与数
据的分布有关,同时它还与样本的规模 有关。当样本足够大时,一些很小的分
布差异也可以通过χ2 检验达到显著性水
平。因此,要想测量变量间关系的强弱 ,需要进行关系强度的测量。其方法主 要有:Φ系数、V系数、C系数、λ系数等 。
第三节 其他层次变量的相关测量与检验
关于相关系数,有两点需要说明:
一是对于研究社会现象和人们社会行为的社会调查来 说,各种相关系数的值不可能达到1(或-1)。也就是 说,在社会研究中不存在完全的正相关或负相关。
二是相关系数只是用来表示变量间相关程度的量的指 标,它不是相关量的等单位度量。因此,我们不能说 0.50的相关系数是0.25相关系数的两倍。同理,也不 能说相关系数从0.60到0.70与从0.20到0.30增加的程度 一样多。
1、各种相关测量的方法,目的是理解两个 变量中“样本”中相关程度的强弱或大小。
2、对各种相关系数所进行的相应的检验, 目的是根据随机样本的资料推论两个变量中 “总体”中是否相关。
3、选择何种相关测量方法和何种检验方法, 主要看两变量的测量层次,要依据变量的测 量层次来确定合适的相关测量和检验工具。
二、因果关系 1、概念:指的是当其中一个变量变化时会引起或导致
另一个变量也随之发生变化,但反过来,当后一变量 变化时,却不会引起前一变量的变化。 2、因果关系的三个条件: A、首先,变量X与变量Y之间存在不对称的相关关系。 B、变量X与变量Y在发生的顺序上有先后之别。 C、变量X与变量Y的关系不是同源于第三个变量的影响。
进行χ2检验(卡方检验)
具体步骤:
首先,建立两变量间无关系的假设。
然后计算χ2 值。将计算出的χ2 值与查得的临界
值进行比较,若χ2 值大于或等于临界值,则称差异显
著,并拒绝两变量独立的假设,也即承认两变量间有
关系;若χ2 值小于临界值,则称差异不显著,并接受
两变量独立的假设,即两变量间无关系。
第二节 交互分类
5、表内的百分比通常保留一位小数。 6、对于交互分类的两个变量的安排,通
常是将自变量、或被看作是自变量的或 用来作解释的那个变量放在上层;而将 因变量或被看作因变量放在表的左侧。 7、交互分类的两个变量的变量值应有所 限制,特别是不能同时具有多个变量值。
三、χ2检验
进行调查的目的常常不仅仅是描述或说明 样本的情况,更重要的是要通过样本的情况来 反映和说明总体的情况。因此,要保证从样本 中得到的结果具有统计意义,保证样本中所体 现的变量间关系也反映了总体的情况,就必须
1、定序变量与定序变量
如果两个变量都是定序变量,可以用古德曼和古鲁斯 卡的Gamma系数来测量它们之间的相关关系。常用G (或Υ)表示,其取值范围是[-1,+1],适用于分析 对称关系,且既表示相关的方向性,也表示相关的程 度。它也具有消减误差比例的意义。
公式为:
其中,Ns表示同序对数目,Nd表示异序对数目。所谓同序对就是指变量大 小顺序相同的两个样本点,即其在变量X上的等级高低顺序与在变量Y上的 等级高低顺序相同;否则就是异序对。
第十三章 资料的统计分析(2) ——双变量分析
本章主要内容:
1、变量间的关系 2、交互分类 3、其他层次变量的相关测量与检验 4、回归分析
第一节 变量间的关系
许多社会现象之间往往存在着相互联系、相互影
响、相互依存的关系。
总体来看,变量之间的关系可以分为两个变量之间的关系和
多个变量间的关系。在很多情况下,多个变量之间的关系又可以
1、依据理论分析或根据研究的需要确 定两变量中哪一个为自变量,哪一个为 因变量。
2、以自变量为x轴,因变量为y轴作出 表中资料的散点图,以判明两变量之间 是否为线性相关。
从散点图中可以看出,二变量为线性相 关。但接近这些点的直线有很多条,每 条直线都不会正好与每一点都相连,即 都会有误差。回归计算的目的就是找出 一条最佳的直线,使它与各点的误差之 和为最小。最佳回归是依据最小二乘法 计算达到的(此处从略),其标准方程 为:
2、相关关系的方向。对于定序以上层次的变量来说, 变量与变量之间的关系可以分为正关系与负关系两个 方向。
第一节 变量间的关系
所谓两个变量具有正相关关系,指的是一个变量的取 值增加时,另一个变量的取值也随之增加,反之亦然。 或者说,两个变量的取值变化具有同方向性。
所谓两个变量具有负相关关系,指的是一个变量的取 值增加时,另一个变量的取值随之减少,反之亦然。 或者说,两个变量的取值变化具有反方向性。
为:
K为分组数目,n为样本规模,F的抽样分 布取决于两个自由度,即df1=k-1;df2=nk
第三节 其他层次变量的相关测量与检验
3、定距变量与定距变量
用皮尔逊相关系数(或称皮尔逊积差相关系 数)r
公式为:
特点:首先,公式中X与Y是对等的,即将两者位置互 换,r值不变,说明r是一种对称关系的测量;其次,可 以证明r的取值范围在-1到1之间;第三,r的取值具有 方向性;第四,r本身不具有消减误差比例的意义,而 其平方r2(又称决定系数)具有消减误差比例的意义。
第四节 回归分析
回归分析(regression analysis)是对 有相关关系的现象,根据其关系的形态 找出一个合适的数学模型,即建立回归 方程,来近似地表达变量间的平均变化 关系,以便依据回归方程对未知的情况 进行估计和预测。
回归分析的对象是定距层次的变量。
第四节 回归分析
一元线性回归方程的建立
关于相关关系的方向性还需再次强调:它只限于定序 以上层次的变量。因为只有这些变量的取值才有大小、 高低或多少之分。
第一节 变量间的关系
3、相关关系的强度 指的是他们之间相关关系程度的强弱和
大小。
变量间相关程度的统计表示是相关系数。 一般相关系数的取值都在-1到+1之间, 这里的正负号表示的是相关关系的方向, 实际的数值的绝对值表示的是相关关系 的强弱。
Y a bX
其中b称回归系数,计算公式为:
b n XY X • Y n X 2 ( X )2
在运用回归分析进行预测时,应注意下 述两点:一是要注意时间条件,即回归 方程往往反映的是一定时期内变量间的 相互关系,当时代不同时,这种关系常 常会发生变化;二是要注意预测不能超 出资料所适合的范围,即回归方程的预 测在变量取值上有一定的临界条件,忽 视这一点,有时也会作出不合理的预测 来。
第一节 变量间的关系
4、相关关系的类型
可分为直线相关和曲线相关。 所谓直线相关,指的是当变量X值发生变动时,变量Y
的值也随之发生大致均等的变动。
5、相关关系与散点图:散点图用于定距 以上层次的变量。
散点图主要作用是使我们能够对两变量间的关系有 一个形象、直观的印象。
第一节 变量间的关系
这种情况下用相关比率(correlation ratio)或eta系数 来测量两者间的相关程度。相关比率又称为eta平方系 数,记为E2,其数值范围由0到1,具有消减误差比例 的意义。
公式为:
Y为依因变量的数值 公式可转换为:
为在自变量X的每个取 值Xi上的因变量的均值。
第三节 其他层次变量的相关测量与检验 相关比率E2检验采用的是F检验法,公式
第二节 交互分类
第二节 交互分类
二、交互分类表的形式和要求 1、每个表的顶端要有表号和标题。表号的作
用是明确指示,方便阅读或讨论;而表的标题 则概括表中数据的内容和意义。 2、表格中的线条一定要规范、简洁,最好不 用竖线。 3、表中百分比符号的简便处理方式。 4、在表的下端用括号标出每一纵栏所对应的 频数,以指示每一栏百分比所具有的基础(即 个案的多少)。
相关文档
最新文档