第十一章 定量资料分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

取值范围 [0, 1]
是否 有误消减误差 检验方 SPSS有无
对称 比例意义

该系数
对称

x
2检 验

定序-定序
G
定类-定距
E
(定序-定距)
E2
[-1, 1] [0, 1]
对称
不对 称
定距-定距
r
[-1, 1] 对称
r2
[0, 1]

Z检验


F检验




F检验


(t检

验)
• 四、一元回归分析
• (标准差——平均数、异众比率——众数、四分位差—— 中位数)。
• 标准差:一组数据对其平均数的偏差平方的算术 平均数的平方根。
(xi X )2
n
• 离散系数:一种相对的离散趋势统计量,能够对 同一总体中的两种不同的离散趋势统计量进行比 较,或对两个不同总体中的同一离散趋势统计量 进行比较。
数据登录表
城区 个案号 A1 A2 A3 A4 A5 A61 A62 ……
1 2-5 6 7-8 9 10 11 12 13
个案1 1 0387 2 39 3 2
2
1
1
个案2 2 0388 2 40 2 3
4
1
0
个案3 4 0389 1 50 2 5
2
2
1
个案4 3 0400 1 28
1
7
1
0
0
…… …… …… … …… …… …… …… …… ……
(xi X )2 • ( yi Y )2
• 皮尔逊相关系数r的检验既可采用F检验的方法,也可采
用t检验的方法,因为F= t 2。F检验的计算公式如下:
F
r 2 (n 2) 1 r2
t F r n2 1 r2
• 总结各种层次变量之间的相关测量与检验方法:
• (1)各种相关测量的方法,目的是理解两个变量在“样 本”中相关程度的强弱或大小。
1
A2 你的年龄: 28 周岁
28
A3 你的文化程度:
3
①小学及以下 ②初中 ③高中及中专√ ④大专以上
A4 你的婚姻状况
2
①未婚 ②已婚√ ③离婚 ④丧偶 ⑤其他
对婚事花费态度的调查
非常同意
①婚事应该尽量办得简单一些
②结婚是人生一件大事,婚事 应该办得隆重热闹、花再多的 钱也值得
③就是没钱婚事也不应大操办
(280)
• 2. x2检验
x2
( fo fe )2 fe
• 式中 fo为交互分类表中每一格的观察频数;fe 为交互分类
表中 fo所对应的期望频数。
• 检验的具体步骤: • (1)建立两变量间无关系的假设;然后计算出值 x2;
• (2)根据自由度df=(r-1)(c-1)和给出的显著性水平,即p
2-5 6
7-8
9
答案赋值
1=东城 2=西城 3=海淀 4=朝阳 5=宣武 6=石景山 根据问卷上的号码填写
1=男 2=女 0=无回答 按实际年龄填写 大于99岁的填99 1=小学及以下 2=初中 3= 高中及中专 4=大专以上
• 三、数据录入
• 主要的两种方式:
• (1)直接从问卷上将编好码的数据输入计算机; (2)先将问卷上编好码的数据转录到的登录表上, 然后再从登录表上将数据输入计算机。
• 第十一章 定量资料分析
• 主要内容:
• 资料的整理与录入
• 单变量统计分析
• 双变量统计分析 • 多变量的统计分析
第一节 资料的整理与录入
• 一、资料的审核
• 主要工作:审查资料的完整性、统一性和合格性。
• 完整性:
资料总体的完整性; 每份资料的完整性。
• 统一性:
问卷或报表登记填报方法是否统一; 对同一指标的数字所使用的度量单位是否一致; 不同表格对同一指标的计算方法是否统一
值,查 x 2分布表,得到一临界值(r和c分别为交互分类表
的行数和列数);
• (3)将计算出的x2值与查得的临界值进行比较。
若值大于或等于临界值,则称差异显著,并拒绝两变量独 立的假设,即承认两变量间有关系;若值小于临界值,则 称差异不显著,并接受两变量独立的假设,即两变量间无 关系。
• 二、消减误差比例
280
总数
72 700 206 14
8 1000
表2 千户家庭居住地与户主从事的产业(条件百分比)
产业
农业 工业 商业服务业 建筑业 运输
总数
东部
9.3% 82.7 6.7 1.3
0
(300)
地区
中部
7.1% 78.7 13.3 0.7 0.2
(420)
西部
5.0% 43.6 46.4 2.5 2.5
• (2)对各种相关系数所进行的相应的检验,目的是根据 随机样本的资料推论两个变量在“总体”中是否相关。
• (3)选择何种相关测量方法和何种检验方法,主要看两 变量的测量层次,要依据变量的测量层次来确定合适的相
关检验工具。
• 两变量关系的测量与检验方法总结表
两变量层次
相关 系数
定类-定类
(定类-定序)
Z G
Ns Nd n(1 G2 )
• (2)d yx 系数(测量两个变量间的关系为非对称性的)
同序对数-异序对数 dyx 同序对数+异序对数+仅在y变量上同等级的对数
• (3)斯皮尔曼等级相关系数(一般用 表示)
• 测量两变量间对等相关关系 • 不仅对变量等级的高低做比较,而且还考虑等级的差异。 • 取值[-1,+1]
• 1. 集中趋势分析 • 用一个典型值或代表值来反映一组数据的一般水
平,或反映这组数据向这个典型值集中的情况。 • 最常见的集中趋势:平均数、众数和中位数。
X x n
X
xf f
xf
n
• 2. 离散趋势分析
• 用一个特别的数值来反映一组数据相互之间的离 散程度。
• 常见的离散趋势统计量:极差、异众比率、四分 位差、标准差与方差、离散系数与标准分数等。
值之下的Y变量众数的频次;N=调查对象总数。
• (2)Tau-Y系数( y 系数,测量变量间非对称关系)
r
r
c
fij 2
1
Fห้องสมุดไป่ตู้
2 j
y 1
1
Fi
r
N
Fj2
N 1
N
• 2. 定序变量与定序变量
• Gamma系数(G)、d yx 系数、斯皮尔曼等级相关系数
• (1)G系数 • 取值范围 为:[-1,+1],适用于分析对称关系,且既
• 假设检验的类型: • 参数检验、非参数检验
参数检验:Z检验、t检验与F检验
非参数检验:x 2
第三节 双变量统计分析
• 一、交互分类与 x2 检验
• 1. 交互分类 • 交互分类(cross-tabulation)它是将研究所得
的一组数据按照两个不同的变量进行综合的分类, 其结果通常以交互分类表(又称为列联表)的形 式反映出来。 • (适用于各种测量层次的变量) • 作用:
• 合格性:
提供资料者的身份是否符合所规定的调查对象的身份 所提供的资料是否符合填报要求; 所提供的资料是否正确无误。
• 资料审核的方式: (1)实地审核; (2)系统审核或集中审核
• 二、资料的分类和编码
• 将被调查者对问卷中问题的回答转换成供计算机 识别和统计的数字。
转换成的数字
A1 你的性别:①男√ ②女
1
6 Di2 N (N 2 1)
• 3. 定类变量(或定序变量)与定距变量
• 当两个分析的变量一个为定类(或定序)变量,另一个为 定距(以上)变量时,可以用相关比率(Correlation ratio)或eta系数来测量二者间的相关程度。
• 相关比率又称为eta平方系数,记为 E2,其数值范围由0
分析
统计描述
抽样调查 单变量 双变量 多变量
其他 非概 率抽 样
统计推论
参数估计 假设检验
点估计 区间估计
参数检验
Z检验 t检验 F检验 非参数检验
x 2检验
统计描述+统计推论
第二节 单变量统计分析
• 一、单变量描述统计
• 主要目的:用最简单的概括形式反映出大量数据 资料所容纳的基本信息。
• 基本方法:集中趋势分析、离散趋势分析等。
同意 √

无所谓 不同意 很不同意 √
看法① 看法② 看法③
非常同意
1 5 1
三种看法的赋值
同意
2 4 2
无所谓
3 3 3
不同意
4 2 4
很不同意
5 1 5
编码手册
项目名称 变量名

V
含义 城区
宽度 1
个案号 ID 个案号
4
问题A1 A1
性别
1
问题A2 A2
年龄
2
问题A3 A3 文化程
1

栏码 1
• 三、相关分析与检验
• 1. 定类变量与定类变量
• Lambda系数、Tau-y系数
• (1)系数 yx ( 以众值作为预测的准则)
mx my (M x M y )
2N (Mx M y )
yx
my M y N My
每M 个y=取Y变值量之众下数的的X变频量次的;M众x=数X的变频量次众;数m的y=频为次X变,m量x=的Y每变个量取
• 假设检验的步骤:
• (1)建立原假设(虚无假设)和(备择假设)研 究假设;
• (2)根据需要选择适当的显著性水平 ,通常有 =0.05, =0.01,并确定拒绝域或接受域;
• (3)根据样本数据计算出统计值,并根据显著性 水平查出对应的临界值;
• (4)将临界值与统计值进行比较,若临界值大于 统计值的绝对值,则接受虚无假设;反之,则接 受研究假设。
到1,也具有消减误差比例的意义。其计算公式为:
E2 ( y Y )2 ( y Yi )2 (y Y)2
• 式中,y为因变量的数值,Y 为因变量的均值;Yi 为在自变
量x的每个取值上的因变量的均值。
• 为了计算方便,常将上述公式化为下面形式:
E2
2
2
ni Yi nY
y2 nY 2
• 式中,n为x变量每一取值的频数合计值,n为总的频数
值, ni n 。
• 相比比率的检验采用的是F检验法,其计算公式为:
F
E2 1 E2
(nk) k 1
• 式中,k为分组数目,n为样本规模;k 1 df1 n k df2
• 4.定距变量与定距变量
• 皮尔逊相关系数(或称皮尔逊积差相关系数)r。皮尔逊 相关系数的计算公式为:
r
(xi X ) • ( yi Y )
• 四、数据清理
• 1. 有效范围清理; • 2. 逻辑一致性清理; • 3. 数据质量抽查。
统计分析
全面调查
单变量 双变量 多变量
集中趋势 分析
离散趋势 分析
列联表 消减误差
比例 相关分析 一元方差
分析 一元回归
分析
多元相关 分析
多元方差 分析
多元因果 分析
判别分析 聚类分析 因素分析 最小空间
• (2)总体成数的区间估计
p(1 p)
p Z /2
n
其中,p 为样本成数,p为总体中某 类所占百分比。
• 2. 假设检验 • 先对总体某一参数作出假设,然后用样本的统计
量去进 行验证,以决定假设是否为总体所接受。
• 几对概念: • (1)原假设与被择假设( H0 与 H1 ) • (2)显著性水平与否定域(接受域) • (3)双边检验与单边检验
• 置信水平与置信区间成正比。
• 常用的置信水平分别为90%、95%和99%,与它
们所对应的允许误差(显著性水平, )则分别为
10%、5%和1%。在计算中,置信水平常用1-
来表示。
• (1)总体均值( )的区间估计
X Z /2
n
X Z /2
S n
X 为样本平均数,S为样本标准差;Z(1 )为置信度是1- 的 Z值;n为样本规模。
表示相关的方向性,又表示相关的程度。
G Ns Nd Ns Nd
• 式中,Ns 表示同序对数目,Nd 表示异序对数目。 • (同序对:变量大小顺序相同的两个样本点,即其在变量
X上的等级高低顺序与在变量Y上的等级高低顺序相同; 否则就叫异序对)
• Z检验 • 为了进行Z检验,必须先将G值标准化为Z值。
• 消减误差比例(proportionate reduction in error,简称PRE),指的是知道X的值时所减少 的误差( E1 E2)与总误差的比。
PRE E1 E2 E1
PRE越大,表示以X值去预测Y值时能够减少的误差所占 比例越大。换句话说,X与Y之间就越相关,或者说X与 Y的关系越强。 (适用于各种测量层次的变量)
• 离散系数:标准差与平均数之百分比。
CV 100%
X
• 标准分数:用来确定原始数据在总体分布中的位 置,或用来对不同分布的各原始数据进行比较。
Z xx
• 二、单变量统计推论
• 统计推论主要分为两类:参数估计(点估计、区 间估计)、假设检验。
• 1. 区间估计
• 在一定的可信度(置信水平、置信度)下,用样 本统计值的某个范围(置信区间)来估价总体的 参数值。
• (1)较为深入地描述样本资料的分布状况和内在结构; • (2)分组比较,同时也是分析变量间关系的基础。
表1 千户家庭居住地与户主从事的产业(条件次数表)
产业
农业 工业 商业服务业 建筑业 运输
总数
东部
28 248 20
4 0
300
地区
中部
30 330 56
3 1
420
西部
14 122 130
7 7
相关文档
最新文档