第十一章定量资料分析

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

取值范围 [0, 1]
是否有误消减误差检验方 SPSS有无
对称比例意义
法
该系数
对称
有
x
2检验
有
定序－定序
G
定类－定距
E
（定序－定距）
E2
[-1, 1] [0, 1]
对称
不对称
定距－定距
r
[-1, 1] 对称
r2
[0, 1]
有
Z检验
有
无
F检验
有
有
有
无
F检验
有
有
（t检
有
验）
• 四、一元回归分析
• （标准差——平均数、异众比率——众数、四分位差—— 中位数）。
• 标准差：一组数据对其平均数的偏差平方的算术平均数的平方根。
(xi X )2
n
• 离散系数：一种相对的离散趋势统计量，能够对同一总体中的两种不同的离散趋势统计量进行比较，或对两个不同总体中的同一离散趋势统计量进行比较。
数据登录表
城区个案号 A1 A2 A3 A4 A5 A61 A62 ……
1 2－5 6 7－8 9 10 11 12 13
个案1 1 0387 2 39 3 2
2
1
1
个案2 2 0388 2 40 2 3
4
1
0
个案3 4 0389 1 50 2 5
2
2
1
个案4 3 0400 1 28
1
7
1
0
0
…… …… …… … …… …… …… …… …… ……
(xi X )2 • ( yi Y )2
• 皮尔逊相关系数r的检验既可采用F检验的方法，也可采
用t检验的方法，因为F= t 2。F检验的计算公式如下：
F
r 2 (n 2) 1 r2
t F r n2 1 r2
• 总结各种层次变量之间的相关测量与检验方法：
• （1）各种相关测量的方法，目的是理解两个变量在“样本”中相关程度的强弱或大小。
1
A2 你的年龄： 28 周岁
28
A3 你的文化程度：
3
①小学及以下 ②初中 ③高中及中专√ ④大专以上
A4 你的婚姻状况
2
①未婚 ②已婚√ ③离婚 ④丧偶 ⑤其他
对婚事花费态度的调查
非常同意
①婚事应该尽量办得简单一些
②结婚是人生一件大事，婚事应该办得隆重热闹、花再多的钱也值得
③就是没钱婚事也不应大操办
（280）
• 2. x2检验
x2
( fo fe )2 fe
• 式中 fo为交互分类表中每一格的观察频数；fe 为交互分类
表中 fo所对应的期望频数。
• 检验的具体步骤： • （1）建立两变量间无关系的假设；然后计算出值 x2；
• （2）根据自由度df=(r-1)(c-1)和给出的显著性水平，即p
2－5 6
7－8
9
答案赋值
1＝东城 2＝西城 3＝海淀 4＝朝阳 5＝宣武 6＝石景山根据问卷上的号码填写
1＝男 2＝女 0＝无回答按实际年龄填写大于99岁的填99 1＝小学及以下 2＝初中 3＝高中及中专 4＝大专以上
• 三、数据录入
• 主要的两种方式：
• （1）直接从问卷上将编好码的数据输入计算机；（2）先将问卷上编好码的数据转录到的登录表上，然后再从登录表上将数据输入计算机。
• 第十一章定量资料分析
• 主要内容：
• 资料的整理与录入
• 单变量统计分析
• 双变量统计分析 • 多变量的统计分析
第一节资料的整理与录入
• 一、资料的审核
• 主要工作：审查资料的完整性、统一性和合格性。
• 完整性：
资料总体的完整性；每份资料的完整性。
• 统一性：
问卷或报表登记填报方法是否统一；对同一指标的数字所使用的度量单位是否一致；不同表格对同一指标的计算方法是否统一
值，查 x 2分布表，得到一临界值（r和c分别为交互分类表
的行数和列数）；
• （3）将计算出的x2值与查得的临界值进行比较。
若值大于或等于临界值，则称差异显著，并拒绝两变量独立的假设，即承认两变量间有关系；若值小于临界值，则称差异不显著，并接受两变量独立的假设，即两变量间无关系。
• 二、消减误差比例
280
总数
72 700 206 14
8 1000
表2 千户家庭居住地与户主从事的产业（条件百分比）
产业
农业工业商业服务业建筑业运输
总数
东部
9.3％ 82.7 6.7 1.3
0
（300）
地区
中部
7.1％ 78.7 13.3 0.7 0.2
（420）
西部
5.0％ 43.6 46.4 2.5 2.5
• （2）对各种相关系数所进行的相应的检验，目的是根据随机样本的资料推论两个变量在“总体”中是否相关。
• （3）选择何种相关测量方法和何种检验方法，主要看两变量的测量层次，要依据变量的测量层次来确定合适的相
关检验工具。
• 两变量关系的测量与检验方法总结表
两变量层次
相关系数
定类－定类
（定类－定序）
Z G
Ns Nd n(1 G2 )
• （2）d yx 系数（测量两个变量间的关系为非对称性的）
同序对数－异序对数 dyx 同序对数＋异序对数＋仅在y变量上同等级的对数
• （3）斯皮尔曼等级相关系数（一般用表示）
• 测量两变量间对等相关关系 • 不仅对变量等级的高低做比较，而且还考虑等级的差异。 • 取值[－1，＋1]
• 1. 集中趋势分析 • 用一个典型值或代表值来反映一组数据的一般水
平，或反映这组数据向这个典型值集中的情况。 • 最常见的集中趋势：平均数、众数和中位数。
X x n
X
xf f
xf
n
• 2. 离散趋势分析
• 用一个特别的数值来反映一组数据相互之间的离散程度。
• 常见的离散趋势统计量：极差、异众比率、四分位差、标准差与方差、离散系数与标准分数等。
值之下的Y变量众数的频次；N＝调查对象总数。
• （2）Tau-Y系数（ y 系数，测量变量间非对称关系）
r
r
c
fij 2
1
Fห้องสมุดไป่ตู้
2 j
y 1
1
Fi
r
N
Fj2
N 1
N
• 2. 定序变量与定序变量
• Gamma系数（G）、d yx 系数、斯皮尔曼等级相关系数
• （1）G系数 • 取值范围为：[－1，＋1]，适用于分析对称关系，且既
• 假设检验的类型： • 参数检验、非参数检验
参数检验：Z检验、t检验与F检验
非参数检验：x 2
第三节双变量统计分析
• 一、交互分类与 x2 检验
• 1. 交互分类 • 交互分类（cross-tabulation）它是将研究所得
的一组数据按照两个不同的变量进行综合的分类，其结果通常以交互分类表（又称为列联表）的形式反映出来。 • （适用于各种测量层次的变量） • 作用：
• 合格性：
提供资料者的身份是否符合所规定的调查对象的身份所提供的资料是否符合填报要求；所提供的资料是否正确无误。
• 资料审核的方式：（1）实地审核；（2）系统审核或集中审核
• 二、资料的分类和编码
• 将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字。
转换成的数字
A1 你的性别：①男√ ②女
1
6 Di2 N (N 2 1)
• 3. 定类变量（或定序变量）与定距变量
• 当两个分析的变量一个为定类（或定序）变量，另一个为定距（以上）变量时，可以用相关比率（Correlation ratio）或eta系数来测量二者间的相关程度。
• 相关比率又称为eta平方系数，记为 E2，其数值范围由0
分析
统计描述
抽样调查单变量双变量多变量
其他非概率抽样
统计推论
参数估计假设检验
点估计区间估计
参数检验
Z检验 t检验 F检验非参数检验
x 2检验
统计描述＋统计推论
第二节单变量统计分析
• 一、单变量描述统计
• 主要目的：用最简单的概括形式反映出大量数据资料所容纳的基本信息。
• 基本方法：集中趋势分析、离散趋势分析等。
同意 √
√
无所谓不同意很不同意 √
看法① 看法② 看法③
非常同意
1 5 1
三种看法的赋值
同意
2 4 2
无所谓
3 3 3
不同意
4 2 4
很不同意
5 1 5
编码手册
项目名称变量名
区
V
含义城区
宽度 1
个案号 ID 个案号
4
问题A1 A1
性别
1
问题A2 A2
年龄
2
问题A3 A3 文化程
1
度
栏码 1
• 三、相关分析与检验
• 1. 定类变量与定类变量
• Lambda系数、Tau-y系数
• （1）系数 yx （以众值作为预测的准则）
mx my (M x M y )
2N (Mx M y )
yx
my M y N My
每M 个y＝取Y变值量之众下数的的X变频量次的；M众x＝数X的变频量次众；数m的y＝频为次X变，m量x＝的Y每变个量取
• 假设检验的步骤：
• （1）建立原假设（虚无假设）和（备择假设）研究假设；
• （2）根据需要选择适当的显著性水平，通常有＝0.05，＝0.01，并确定拒绝域或接受域；
• （3）根据样本数据计算出统计值，并根据显著性水平查出对应的临界值；
• （4）将临界值与统计值进行比较，若临界值大于统计值的绝对值，则接受虚无假设；反之，则接受研究假设。
到1，也具有消减误差比例的意义。其计算公式为：
E2 ( y Y )2 ( y Yi )2 (y Y)2
• 式中，y为因变量的数值，Y 为因变量的均值；Yi 为在自变
量x的每个取值上的因变量的均值。
• 为了计算方便，常将上述公式化为下面形式：
E2
2
2
ni Yi nY
y2 nY 2
• 式中，n为x变量每一取值的频数合计值，n为总的频数
值， ni n 。
• 相比比率的检验采用的是F检验法，其计算公式为：
F
E2 1 E2
(nk) k 1
• 式中，k为分组数目，n为样本规模；k 1 df1 n k df2
• 4．定距变量与定距变量
• 皮尔逊相关系数（或称皮尔逊积差相关系数）r。皮尔逊相关系数的计算公式为：
r
(xi X ) • ( yi Y )
• 四、数据清理
• 1. 有效范围清理； • 2. 逻辑一致性清理； • 3. 数据质量抽查。
统计分析
全面调查
单变量双变量多变量
集中趋势分析
离散趋势分析
列联表消减误差
比例相关分析一元方差
分析一元回归
分析
多元相关分析
多元方差分析
多元因果分析
判别分析聚类分析因素分析最小空间
• （2）总体成数的区间估计
p(1 p)
p Z /2
n
其中，p 为样本成数，p为总体中某类所占百分比。
• 2. 假设检验 • 先对总体某一参数作出假设，然后用样本的统计
量去进行验证，以决定假设是否为总体所接受。
• 几对概念： • （1）原假设与被择假设（ H0 与 H1 ） • （2）显著性水平与否定域（接受域） • （3）双边检验与单边检验
• 置信水平与置信区间成正比。
• 常用的置信水平分别为90％、95％和99％，与它
们所对应的允许误差（显著性水平，）则分别为
10％、5％和1％。在计算中，置信水平常用1－
来表示。
• （1）总体均值（）的区间估计
X Z /2
n
X Z /2
S n
X 为样本平均数，S为样本标准差；Z(1 )为置信度是1－的 Z值；n为样本规模。
表示相关的方向性，又表示相关的程度。
G Ns Nd Ns Nd
• 式中，Ns 表示同序对数目，Nd 表示异序对数目。 • （同序对：变量大小顺序相同的两个样本点，即其在变量
X上的等级高低顺序与在变量Y上的等级高低顺序相同；否则就叫异序对）
• Z检验 • 为了进行Z检验，必须先将G值标准化为Z值。
• 消减误差比例（proportionate reduction in error，简称PRE），指的是知道X的值时所减少的误差（ E1 E2）与总误差的比。
PRE E1 E2 E1
PRE越大，表示以X值去预测Y值时能够减少的误差所占比例越大。换句话说，X与Y之间就越相关，或者说X与 Y的关系越强。（适用于各种测量层次的变量）
• 离散系数：标准差与平均数之百分比。
CV 100%
X
• 标准分数：用来确定原始数据在总体分布中的位置，或用来对不同分布的各原始数据进行比较。
Z xx
• 二、单变量统计推论
• 统计推论主要分为两类：参数估计（点估计、区间估计）、假设检验。
• 1. 区间估计
• 在一定的可信度（置信水平、置信度）下，用样本统计值的某个范围（置信区间）来估价总体的参数值。
• （1）较为深入地描述样本资料的分布状况和内在结构； • （2）分组比较，同时也是分析变量间关系的基础。
表1 千户家庭居住地与户主从事的产业（条件次数表）
产业
农业工业商业服务业建筑业运输
总数
东部
28 248 20
4 0
300
地区
中部
30 330 56
3 1
420
西部
14 122 130
7 7

第十一章 定量资料分析

第十一章定量资料分析