2、数据统计分析方法(上)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
27
1 量化事物
目录
SPSS应用与 实证研究方法
2 如何用数据描述事物 3 如何用样本对总体进行推断
4 如何使用数据揭示事物之间的关联
28
第二讲:描述事物
29
内容目录
第一部分 量化事物 第二部分 如何用数据描述单个事物
z频数表 z均值表 z饼形图和条形图 z折线图 z直方图 z盒形图 z事物的集中趋势和离散趋势
7823264.00 5957854.00 1606037.00 1024612.00
417049.00 25889.00 60238.00 5836.00 31939.00 4273.00 80372.00
621834.00 22073.66
22850196.64 14453.95 7.80 104.08 1008.00 47.58
22
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
4、定比变量 注意:
不但可以表示绝对数值的大小 而且零点也是有意义的
23
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
小结
定类
定序
定距
定比
分类(=、≠)




次序(>、<)



距离(+、-)


比率(×、÷)

24
Xi =4(比较满意),Xi =5(非常满意)
18
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
3、定距变量
读者满意程度
温度
38度 24度 …… 4度 0度
5
非常满意
4
比较满意
3
一般评价
2
不太满意
1
很不满意
19
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
3、定距变量
进出口总额 在岗职工人均工资 每万人拥有公共汽电车 每百人公共图书馆藏书
人口密度 第三产业占GDP比重
单位
万元 万人 万元 万元 万元 万元 万元 万元 万元
人 万人次
辆 辆 万平方米 万元 万元 元/人 千美元 元/人 辆 册、件 人/平方公里 %
天津
16499400.00 509.59
2580319.00 11483600.00
1、定类变量
例如, 在CNNIC的第十六次中国互联网络发展状况网上调查问卷:
22.您对互联网最反感的方面为: (单选) O 垃圾邮件 O 弹出式广告/窗口 O 网络病毒 O 网络入侵/攻击(包括木马) O 网上不良信息 O 网上虚假信息 O 网上收费陷阱 O 隐私泄露 O 其他(请注明 )
14
第一部分 量化事物
Xi =“优先等级排序”;其可能取值为“第一优先”,“第二优先”,…,“第五优 先”等,
或分别用Xi =1(第一优先),Xi =2(第二优先),…,Xi =5(第五优 先)表示
15
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
2、定序变量
费用支出水平
第1
第2
第3
高支出 中等支出 低支出
X1 =“收入”;其可能取值为任意的正数,如 X1 =1200(元);X1 =800(元);…;等 Xi =“上网时间”;其可能取值为任意的正数,如 Xi =90(天);Xi =60(天);Xi =0(天);…;等
21
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
4、定比变量
万人 14000
3、定距变量 如果所提的问答题的答案可以表示绝对数值的大小,那 么对应的变量就叫做定距变量或间隔变量;测量的量表 就叫做定距量表或间隔尺度。定距变量的取值用数字形 式表示。例如
X1 =“温度”;其可能取值为任意的实数,如 X1 =20(度);X1 =0(度);X1 =-2(度);等 Xi =“客户满意程度得分”;其可能取值为 Xi =1(很不满意),Xi =2(不太满意),Xi =3(一般),
SPSS应用与实证研究方法讲座
——数据统计分析方法 ——为北京邮政科学研究设计院准备
马广斌 博士
13121671650 maguangbin@sina.com
1 量化事物
目录
SPSS应用与 实证研究方法
Baidu Nhomakorabea
2 如何用数据描述事物 3 如何用样本对总体进行推断
4 如何使用数据揭示事物之间的关联
2
第一讲:量化事物
标题行
2 30分钟以下 3 31--60分钟 4 61--90分钟
886
1036
变量与
数据
290
5 90分钟以上
267
来源
总计
2906
(数据来源:1996年《广州市民报纸读者意见调查》——广州达门市场研究公司)
首先,从标题说明中,可以看出这张表的时间(1996年)和要表现的主 题(广州市民每天花多长时间看报纸);其次,表的标题行列出了研究的变 量(每天看报纸的时间)和统计量(频数)以及记数所用的单位;最后在表 的底部列出了数据或资料来源。对任何一张数据表来说,这些信息都是必须 展示的。
第一部分 量化事物
二、如何量化事物
• 变量的转换规律:
高级别的变量
低级别变量
您今年多大岁数了? ( )岁
您的年龄属于哪一个年龄段?
1、20岁及以下 2、21-30岁 3、31-40岁
4、41-50岁
5、51-60岁 6、61岁及以上
您今年是否大于20岁? 1、是 2、否
25
第一部分 量化事物
二、如何量化事物
二、如何量化事物
• 最常用的四种变量形式:
变量
测量级别
低 定类变量 定类量表 (Nominal Scale) 定序变量 定序量表 (Ordinal Scale) 定距变量 定距量表 (Interval Scale)
高 定比变量 定比量表 (Ratio Scale) (级、量表、尺度)
9
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
2、定序变量 如果所提的问答题的答案可以表示重要大小或程度轻重 等顺序的先后,那么对应的变量就叫做定序变量或顺序 变量;测量的量表就叫做定序量表或顺序尺度。例如:
X1 =“费用支出”;其可能取值为“低”,“中”和“高”, 或分别用X1 =1(低)、X1 =2(中)和X1 =3(高)表示
12000
10000 8000 6000
7950 5910
4000
3370
2250
2000
13700 11100 9400
0 2000.12 2001.12 2002.12 2003.12 2004.12 2005.12 2006.12
数据来源:中国互联网络信息中心(CNNIC)
图:历次调查网民总数
二、如何量化事物
• 最常用的四种变量形式:
低 •名称级----定类变量
•顺序级----定序变量
转 换
•间隔级----定距变量
•比例级----定比变量 高
离散型随机变量
定性 非数量型
定量 数量型
连续型随机变量 10
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
1、定类变量 如果所提的问答题的答案只表示类别,不表示任何数量 的顺序或大小,那么对应的变量就叫做定类变量或名义 变量;测量的量表就叫做定类量表或名义尺度。例如:
1、定类变量
有线电视费
信息费

性别
订阅报纸
媒介花费
上网费

买杂志
买书籍
12
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
1、定类变量 注意:
如果使用数值标识,只表示类别 不表示任何数量的顺序或大小 不能作任何加减乘除的运算
13
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
注意: 值之间可以比较大小顺序 可以说明大多少或小多少 两个值的差有实际意义 比值没有意义 零点和测量单位可以任意规定 适合使用除涉及比值计算的几乎所有统计方法
20
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
4、定比变量 如果所提的问答题的答案可以表示绝对数值的大小,而 且零点也是有意义的话,那么对应的变量就叫做定比变 量或比率变量;测量的量表就叫做定比量表或比率尺 度。例如
X1=“性别”;其可能取值为“男”或“女”, 或分别用X1=1(男)和X1=2(女)表示 Xi =“费用类别”;其可能取值为“厂修费”,“航修费”,…,“检验
费”等10多类,
或分别用Xi =1(厂修费),Xi =2(航修费),…,Xi =10(检验费)表

11
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
• 统计分析就是收集、分析、表述和解
释数据,洞察数据中的规律,把数据 转化为信息
7
第一部分 量化事物
二、如何量化事物
• 任何数据都必须经过适当形式的综
合,浓缩成精简的形式来展示
• 事物的特征决定了往往只有很少几
种变量形式,能最恰当地展示事 物;
• 很多时候,甚至只有一种变量形式
可以使用
8
第一部分 量化事物
指标分类
综合状况
城市先进 程度
人口与产业
城市经济指标项目
国内生产总值 非农业人口
在岗职工工资总额 城乡居民储蓄年末余额
社会消费品零售额 固定资产投资总额 房地产开发投资额
住宅投资 保费
医生数 公共汽电车客运总数 年末实有公共运营汽电车 年末实有出租汽车 年末实铺装铺道路面积
邮政业务总量 电信业务总量 人均国内生产总值
就是统计某变量的每一个值出现了多少次。这就是频数。频数 常用 f 表示,它是指样本中对某变量具有相同的变量值的个案数。
频数表较为适合使用定类变量和定序变量来描述事物。
32
第二部分 如何用数据描述单个事物
一、频数表
表2-1 1996年广州市民每天花多长时间看报纸
表头
每天看报纸时间 1 从不看
频数(单位:人) 427
3
内容目录
第一部分 量化事物
z为什么要量化事物 z如何量化事物
第二部分 如何用数据描述单个事物 第三部分 如何用样本对总体进行推断 第四部分 如何使用数据揭示事物之间的关联
4
第一部分 量化事物
一、为什么要量化事物
• 量化的重要意义:
如果您不能量化某些事情,那么您就不能理解它; 如果您不能理解它,那么您就不能控制它; 如果您不能控制它,那么您就不能改进它。
一、频数表
表2-2 1996年广州市民每天花多长时间看报纸 每天看报纸时间 频数(单位:人) 百分数(%)
1 从不看 2 30分钟以下 3 31--60分钟 4 61--90分钟 5 90分钟以上
总计
427 886 1036 290 267 2906
14.7 30.5 35.7 10.0
9.2 100.0
33
第二部分 如何用数据描述单个事物
一、频数表
因为比例还反映了和样本总量有关的信息,因此在频数表中,常常同时列 出频数和比例两个统计量。
比例常常用百分数来表示,其计算方法为:
比例 = f / n ×100%
(2-1)
其中 f 表示某一频数,n 表示样本量或某一类别的子样本数。
34
第二部分 如何用数据描述单个事物
5
第一部分 量化事物
一、为什么要量化事物
• 事物都能量化吗?
质、量、度,是所有事物的基本属性; 因此任何事物,都是而且应该可量化的;
• 量化事物是个什么工作?
质 量

事物
变量
6
第一部分 量化事物
一、为什么要量化事物
• 数据包含的信息很多,但是数据中的
信息往往是分散的,单个数据很难直 接被应用起来
报纸选择优先级别
第一优先 第二优先 第三优先 第四优先 第五优先
16
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
2、定序变量 注意:
按某种特性将观测对象排序 值之间可以比较大小或强弱顺序 但两个值的差一般没有什么实际意义
17
第一部分 量化事物
二、如何量化事物
• 最常用的四种变量形式:
(数据来源:1996年《广州市民报纸读者意见调查》——广州达门市场研究公司)
35
第二部分 如何用数据描述单个事物
二、均值表
对于数值型变量(定距变量和定比变量),均值是常用的统计量之一. 均值描述的是分布的中心。 在资料展现的初步阶段,特别是对用量表测量的变量,均值能比百分 比反映更多的有用信息。
第三部分 如何用样本对总体进行推断 第四部分 如何使用数据揭示事物之间的关联
30
第二部分 如何用数据描述单个事物
调研资料都必须经过适当形式的综合,浓缩成精简的 形式来展示。
常用的做法是将资料整理成一些表。 为了增加表现效果而采用图来表示。
31
第二部分 如何用数据描述单个事物
一、频数表
• 变量的转换规律:
在社会科学研究中 多个定序变量累加
定距变量
12 3 4 5
12 3 4 5 12 3 4 5
4 ---- 20
12 3 4 5 态度量表
累加量表 (态度得分)
26
自己动手
例:你管理着一个给软件开发公司销售计算机的团队。对每一个企业客户, 你的客户经理都有一位主要联系人,你将这些联系人按他们在公司所属的部 门分为不同的类别(开发部、计算服务部、财务部、其它、不详)。 数据收集在文件 contacts.sav 里。 分析一下你的联系人特征。
相关文档
最新文档