8定量分析技术和方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013-8-6
146 234
567 735 621 331 176 98 23 3033
浙江大学公共管理学院 陈丽君
248 482
1049 1784 2405 2736 2912 3010 3033 /
7
描述统计1
集中性度量

平均数
算术平均数 加权平均数:当相同变量值的个数较多时,需
用加权法计算平均数。 几何平均数:偏态分布资料,变量值的变化呈 倍数关系,特别当变量值取对数后服从正态分 布(对数正态分布资料),采用几何平均数

2013-8-6 浙江大学公共管理学院 陈丽君 23
(1)H0: µ = µ0 ;H1: µ ≠ µ0。 (2)H0: µ ≥ µ ;H1: µ < µ 。 0 0 (3)H0: µ ≤ µ ;H1: µ > µ 。 0 0

2013-8-6
浙江大学公共管理学院 陈丽君
24
参数和非参数检验对变量的要求
百分位数


二分位数(中位数) 四分位数(第一、第二、第三四分位数)
n x A Px Lx 100 ix fx

Lx为Px所在组的下限, fx为Px所在组的频数,ix表示分位 数所在组的组距,A为小于Lx各组的累计频数
浙江大学公共管理学院 陈丽君 15
2013-8-6
众数
在一组数据中出现次数最多的数据 众数特征
4
统计分布图选择的注意事项

构成

标题、图号、标目、图例、图形、图注 可用于间断变量的统计图

分类

直条图(柱形图);圆形图(饼形图)
表示连续变量的统计图


散点图 直方图 多边形图
2013-8-6
浙江大学公共管理学院 陈丽君
5
频数(频率)分布

不同组的频数计算

累计频数


向上累计频数:从变量的低限组向高限组方向累计 向下累计频数:从变量的高限组向低限组方向累计 钟形分布 U型分布 丁型分布
2013-8-6
浙江大学公共管理学院 陈丽君
12
表: 100名治安队员的身高
身高,组距(CM) 148~152 152~156 160~164 164~168 168~172 168~172 172~176 176~180 180~184 184~188 188~192 f 频数 1 2 5 10 19 25 17 12 5 3 0 F 向上累计频数 1 3 8 18 37 62 79 91 96 99 99
26
2013-8-6
浙江大学公共管理学院 陈丽君
27
2013-8-6
浙江大学公共管理学院 陈丽君
28
2013-8-6
浙江大学公共管理学院 陈丽君
29
2013-8-6
浙江大学公共管理学院 陈丽君
30
错误拒绝
正确录用
正确拒绝
错误录用
显著性水平与一类错误
显著性水平值提高时,会提高犯一类错误的 概率,同时降低犯二类错误的概率; 研究中,更关注一类错误,因而会将显著性水 平设置在较低的水平.

2013-8-6
浙江大学公共管理学院 陈丽君
34
相关分析
2013-8-6
浙江大学公共管理学院 陈丽君
35
相关分析
对变量之间关系的分析 完全正相关r=+1.00,完全负相关r=-1.00,无 任何相关r=0 双变量正态分布的 变量

对X的每个值,与之关联的Y值的分布都是正态
的.反之亦然 X与Y为线性关系 散点分布具有同方差性
非参数统计分析
顺序(ordinal )变量
等距(interval )变量
参数统计分析 非参数统计分析
等比(ratio )变量
2013-8-6
浙江大学公共管理学院 陈丽君
25
统计功效和统计检验

统计检验中可能出现的两类错误

Ⅰ类错误:H0 为真时接受H1 Ⅱ类错误:H1为真时接受H0
拒绝H0


浙江大学公共管理学院 陈丽君 38
2013-8-6
例:性别与对吸烟的态度
态度y 容忍 反对 合计(Fx) 性别x 男 37 15 52 女 8 42 50 合计(Fy) 45 57 102
2013-8-6
浙江大学公共管理学院 陈丽君
39
斯皮尔曼相关系数
r
XY X Y
2 2
2013-8-6


统计功效:统计检验中不犯或避免犯Ⅱ类错误的概率 1- Ⅰ型错误((type I error)的概率记为α,α也称为显著性水平 (Level of Significance) 水平则限制了犯一类错误的概率。一般定在.05或.01
H0虚无假设 H1备择假设
2013-8-6
浙江大学公共管理学院 陈丽君

频数分布的类型


两维统计分布
浙江大学公共管理学院 陈丽君 6
2013-8-6
表:新华街道家庭月收入调查(XXXX年)
收入分组(元) <3000 户数(频数) 102 累计频数(向上累计) 102
3001~4000 4001~5000
5001~6000 6001~7000 7001~8000 8001~9000 9001~10000 10001~11000 >= 11001

统计功效

统计功效是发现自变量真实效应的敏感测度 影响统计功效的因素
研究所确定的备择假设H1,当虚无假设H0为伪时,假定为 真的那个假设 研究者所选择的 值和相应于它的拒绝区域.当该值较 小时,统计功效降低. 样本的大小.当 1 随样本增大,统计功效提高. 所研究总体的变异程度.在其它条件均等的情况下,总体 离散度减小,统计功效将增大.
常用标准差系数 Cv=标准差/平均数X100%
2013-8-6
浙江大学公共管理学院 陈丽君
20
例:

某机关160名工作人员,人年均起草166.06 文件,标准差为4.95份;人年均加班工作时 数为53.72小时,标准差为4.96小时。比较 160人起草文件数和加班时数的变异程度。
2013-8-6
例:5个区域人口中A党员的比例为1:10, 1:100,1:1000,1:10000, 1:100000, 求 平均比例数。
2013-8-6
浙江大学公共管理学院 陈丽君
9
几何平均数适用的变量
几何平均数属于动态平均数。指社会经济 现象在时间上变动的平均数,例,平均发 展速度。 适用于指数、百分比、增长速度等
(动态平均数: 社会经济现象的同质总体在时间上变动速度的平均 数.如平均发展速度) 调和平均数:倒数平均数
浙江大学公共管理学院 陈丽君

2013-8-6
8
k x1 f 2 x2 f 2 ... xk f k 1 x 或x xi f i n n i 1
G= n x1 x2 ...xn
192~196
合计
2013-8-6
1
100
浙江大学公共管理学院 陈丽君
100
13
N Fm 1 Md L 2 h fm
L ——中位数所在组的下限 fm Fm1 ——小于中位数所在组的各组频数之和(向上累计) N h
2013-8-6
N=总体单位数 h=中位数所在组的组距
浙江大学公共管理学院 陈丽君 14
浙江大学公共管理学院 陈丽君
40
定序变量的相关系数计算
Ns为同序对数目;Nd为异序对数目
序对是指表明高低位次的两两配对,如果一对个案在变量x, y的分类表现位次一致,则为同序对;如果位次相反,则为 异序对
2013-8-6
浙江大学公共管理学院 陈丽君
41
斯皮尔曼等级相关系数
1
N ( N 1)
浙江大学公共管理学院 陈丽君
21
峰态和偏态度

偏态度(Skewness):数据分布的倾斜程度
正偏态(向左偏) 负偏态(向右偏)
Sk
X3 / N
x2

峰态度(Kurtosis): 与原分数与均值之差的四 次方有关 X / N 3 k
4 U
x4
2013-8-6
浙江大学公共管理学院 陈丽君
2013-8-6的相关分析
变量性质 分类变量 列联相关 Φ相关 V相关 顺序变量 等距变量、等比变量
分类变量
顺序变量
Spearman相关 KendallT系数 Kendall W系数 二列相关 点二列相关 多系列相关
等距变量 等比变量
Spearman相关 KendallT系数 Kendall W系数

在分组资料中,众数仅受上下相邻两组频数大
小影响,不受极端值影响 受抽样变动影响很大 对于给定资料的集中趋势量度,众数是不唯一 确定的。
2013-8-6
浙江大学公共管理学院 陈丽君
16
描述统计2 离散程度分析

变异指标反映一群变量值的变异程度或离散程度

全距

适用于各种类型分布资料 和均数配套
k 1 fi ( X i X )2 n 1 i 1
浙江大学公共管理学院 陈丽君 18
抽样时样本标准差为: S
2013-8-6
四分位数间距
Q QU QL
2013-8-6
浙江大学公共管理学院 陈丽君
19
变异系数

体现相对的变异程度。通过将变异指标中 的全距、平均数或标准差与平均数对比得 到的。
K组数,N样本数,R全距,I组距 (I=R/K)

统计分布图
浙江大学公共管理学院 陈丽君 3
2013-8-6
表: 分组数与数据个数的经验关系
数据 个数 分组 数 50
5~10
100
8~16
200
10~20
300
12~24
500
15~30
1000
20~35
2000
30~50
2013-8-6
浙江大学公共管理学院 陈丽君

1950年我国总人口为5.5亿,1985 年达到了10.5亿,共计增长了1.9倍 。
中位数

一组按大小顺序排列的数,居中间位置的数据 当有N个观测值,中位数的确定

N为奇数时,最中间数的值

(n+1)/2
N为偶数时,最中间两个数的平均值

中位数适合于偏态分布资料,变量分布规律不清 楚,有少数特大或特小值;变量分布一端或两端 无确定数值
参考书籍
<公共管理研究与定量分析方法>,范柏乃,蓝 志勇,科学出版社,2008. <公共管理定量分析:方法与技术>,袁政,重 庆大学出版社,2006. <行为统计学基础>,理查德.P.鲁尼恩等,中国 人民大学出版社,2007. 《心理学研究方法》,王重鸣,浙江教育 出版社

2013-8-6 浙江大学公共管理学院 陈丽君 1
变量测量层次
称名(nominal)变量
数学性质 =、 ≠ =、 ≠ >、< =、 ≠ >、< +、=、 ≠ >、< +、*、/
描述统计量 众数 频率 列联系数 中位数 百分位数 Kendall相关 Spearman相关 平均值 方差 Pearson相关 几何均值 变差系数 多重相关系数
适宜的统计分析
Pearson相关
2013-8-6
浙江大学公共管理学院 陈丽君
37
相关类型和变量性质

皮尔逊相关:适用于两个等距或等比测定的连续变 量 点双列相关系数:两个变量中有一个是两分变量或 类别变量,而另一个是连续变量 系数,两个变量都是两分变量 斯皮尔曼的等级相关系数:两组等级数之间的相关 (利用两变量的秩次大小作线性相关分析) Kendall相关(度量两个顺序变量X和Y之间的相关) Kendall和谐系数计算多个变量以等级次序呈现 时之间的一致性系数


标准差

四分位数间距

和中位数配套,用于不对称的偏态分布资料
辅助变异指标,适用于对称分布资料,尤其是正态分布
变异系数

2013-8-6
浙江大学公共管理学院 陈丽君
17
标准差

总体中各单位标志值与算术平均数的离差平方 的算术平均数的平方根,又称为均方差。
S
1 k fi ( X i X )2 n i 1
22
统计推断和假设检验
统计推断利用从样本得到的数据对总体进 行推断 假设检验Hypothesis Testing就是事先对总 体(随机变量)的参数或总体分布形式做 出一个假设,然后利用样本信息来判断这 个假设(原假设)是否合理,即判断总体 的真实情况与原假设是否显著地有差异。 原假设null hypothesis 备选假设(或称为备择假设,alternative hypothesis)
本章聚焦
统计准备 描述统计 相关分析 简单概率论 回归分析 因素分析

2013-8-6
浙江大学公共管理学院 陈丽君
2
统计准备

统计表编制

简单表;组合表(按两个以上特征或标志结合起来 分组的统计表) 次数(频数)分布表
2/5

简单统计整理

K 1.87( N I )

相关文档
最新文档