第7讲 数据的编码、录入与整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商 SPSS公司。如今SPSS已出至版本20.0,而且更名为IBM SPSS。
• 它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条 不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分 析,可以不必说明算法,由此可见其影响之大和信誉之高。
第7讲
数据的编码、录入与整理
SPSS背景介绍
• SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于 1968年研开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在 芝加哥组建了SPSS总部。
• 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+, 开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其 能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有 影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、 功能齐全等方面给予了高度的评价。
(1)不感兴趣 (2)感兴趣 (3)非常感兴趣 (1)不厌恶 (2)厌恶 (3)非常厌恶
一、数据的编码、录入与整理
1. 原理
是研究者利用SPSS进行统计分析的必要前提。
Hale Waihona Puke Baidu
就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件, 为各种统计分析做好准备。
2. 数据编码概念
数据编码是指把需要加工处理的数据库信息,用特定的数字来表 示的一种技术。
• 在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应 用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商 业、金融等各个领域。
一、数据的编码、录入与整理
调查问卷
序号
调查内容
选项
1 您的性别:
(1)男 (2)女
2 你的文化程度:
(1)没上过学 (2)小学 (3)初中 (4)高中 (5)大专以上
限定多选项分类法 限定了一次最多可以选择项目的个数; 不能直接对题目进行编码,必须先确定
最多选择, 并给每个选项建立一个变量;
任意多项二分法 表示每一次可以任选几个选项; 编码方法把每一个被选项作为一个变量
来定义, 每个变量只能选择“1或0”;
变量名
编码
样例
第3题-1 第3题-2
1-相貌;2-文化水准;3-气质风度; 文化 2 4-志同道合;5-人品;6-家庭条件; 水准 7-个人收入;8-其他
变量名 第1题 第2题
1-男 ;0-女
双值型变量的编码 多采用“编0码、1”或“1、2”来赋值
1-没上过学;2-小学;3-初中;4-高中;5-大专以上
多值型变量的编码 采用 “1、2、3、…”来赋值
男 小学
样例 1 2
通常对非数值型数据编码,主要起到分组的作用, 不能进行各种算术运算
三、编码类型
3. 多项选择题 多项选择题就是题目答案的选项是多选项
根据一定数据结构和目标的定性特征,将数据转换为代码或编码
字符,在数据传输中表示数据的组成,并作为传送、接受和处理的一
组规则和约定。
调查问卷
编码
数据文件
二、数据问卷与编码(举例)
问卷编码方案
变量名 第1题 第2题 第3题-1
第3题-2
第3题-3
第4题-工作 第4题-学校 第4题-环境 第5题 第6题
编码
1-男 ;0-女 1-没上过学;2-小学;3-初中;4-高中;5-大专以上 1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他
1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他
1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他 1-选;0-不选 1-选;0-不选 1-选;0-不选
选
1
不选 0
第4题-环境 1-选;0-不选
选
1
四、缺失值的处理
1. 概念 缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计
分析带来一些麻烦和误差。
2. 类型
用户缺失值 在问卷调查中把不回答的选项当作缺失值来处理 缺失值可用研究者能识别的数字来表示如“0、9、99”
系统缺失值 指计算机默认的缺失方式,如输入数据空缺、输入非法字符等
. 通常把缺失值标记为“ ”
四、缺失值的处理
3. 缺失值处理方法 替代法:采用统计命令或在相关统计功能中利用参数替代 Transform →Replace Missing Values 剔出法:剔除有缺失值的题目或剔除有缺失值的整份问卷
五、数据处理中的操作术语
3 您想选择下列哪些择偶条件(任选三 (1)相貌 (2)文化水准 (3)气质风度 (4)志同道合 (5)人品 (6)
项):
家庭条件 (7)个人收入 (8)其他
4 您购买房屋时,会考虑哪些因素(任 (1)离工作地点的远近 (2)小孩所就读的学校 (3)居家附近
选):
的环境
5 您对心理学感兴趣: 6 您对学英语感到厌恶:
A B C(A-1,B-2,C-3)
A B C(A-3,B-2,C-1)
样例
男
1
小学
2
文化水准 2
志同道合 4
人品
5
选
1
不选
0
选
1
A
1
A
3
三、编码类型
1. 数值型数据的编码 数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。 通常采用三点计分、四点计分和五点计分等方式进行评分 如选项A、B、C计分为1、2、3 如选项A、B、C、D计分为1、2、3、4
1-相貌;2-文化水准;3-气质风度; 志同 4 4-志同道合;5-人品;6-家庭条件; 道合 7-个人收入;8-其他
第3题-3
1-相貌;2-文化水准;3-气质风度; 人品 5 4-志同道合;5-人品;6-家庭条件; 7-个人收入;8-其他
第4题-工作 第4题-学校
1-选;0-不选 1-选;0-不选
编码示例中的第5、6题就是属于数值型编码
变量名 第5题 第6题
A B C(A-1,B-2,C-3) A B C(A-3,B-2,C-1)
正向数值型 (被选编项码的程度越高,分值越大)
A
A
反向数值型 (被选项的程度越高,分值越小)
样例 1 3
三、编码类型
2. 非数值型数据的编码
非数值型数据的编码,首先要确定编码规则,然后根 据规则对变量赋予分值。
• 它和SAS、BMDP并称为国际上最有影响的三大统计软件。在国际学术界有条 不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分 析,可以不必说明算法,由此可见其影响之大和信誉之高。
第7讲
数据的编码、录入与整理
SPSS背景介绍
• SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于 1968年研开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在 芝加哥组建了SPSS总部。
• 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+, 开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其 能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有 影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、 功能齐全等方面给予了高度的评价。
(1)不感兴趣 (2)感兴趣 (3)非常感兴趣 (1)不厌恶 (2)厌恶 (3)非常厌恶
一、数据的编码、录入与整理
1. 原理
是研究者利用SPSS进行统计分析的必要前提。
Hale Waihona Puke Baidu
就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件, 为各种统计分析做好准备。
2. 数据编码概念
数据编码是指把需要加工处理的数据库信息,用特定的数字来表 示的一种技术。
• 在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应 用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商 业、金融等各个领域。
一、数据的编码、录入与整理
调查问卷
序号
调查内容
选项
1 您的性别:
(1)男 (2)女
2 你的文化程度:
(1)没上过学 (2)小学 (3)初中 (4)高中 (5)大专以上
限定多选项分类法 限定了一次最多可以选择项目的个数; 不能直接对题目进行编码,必须先确定
最多选择, 并给每个选项建立一个变量;
任意多项二分法 表示每一次可以任选几个选项; 编码方法把每一个被选项作为一个变量
来定义, 每个变量只能选择“1或0”;
变量名
编码
样例
第3题-1 第3题-2
1-相貌;2-文化水准;3-气质风度; 文化 2 4-志同道合;5-人品;6-家庭条件; 水准 7-个人收入;8-其他
变量名 第1题 第2题
1-男 ;0-女
双值型变量的编码 多采用“编0码、1”或“1、2”来赋值
1-没上过学;2-小学;3-初中;4-高中;5-大专以上
多值型变量的编码 采用 “1、2、3、…”来赋值
男 小学
样例 1 2
通常对非数值型数据编码,主要起到分组的作用, 不能进行各种算术运算
三、编码类型
3. 多项选择题 多项选择题就是题目答案的选项是多选项
根据一定数据结构和目标的定性特征,将数据转换为代码或编码
字符,在数据传输中表示数据的组成,并作为传送、接受和处理的一
组规则和约定。
调查问卷
编码
数据文件
二、数据问卷与编码(举例)
问卷编码方案
变量名 第1题 第2题 第3题-1
第3题-2
第3题-3
第4题-工作 第4题-学校 第4题-环境 第5题 第6题
编码
1-男 ;0-女 1-没上过学;2-小学;3-初中;4-高中;5-大专以上 1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他
1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他
1-相貌;2-文化水准;3-气质风度;4-志同道合;5-人品;6-家庭 条件;7-个人收入;8-其他 1-选;0-不选 1-选;0-不选 1-选;0-不选
选
1
不选 0
第4题-环境 1-选;0-不选
选
1
四、缺失值的处理
1. 概念 缺失值是指在数据采集与整理过程中丢失的内容,往往会给统计
分析带来一些麻烦和误差。
2. 类型
用户缺失值 在问卷调查中把不回答的选项当作缺失值来处理 缺失值可用研究者能识别的数字来表示如“0、9、99”
系统缺失值 指计算机默认的缺失方式,如输入数据空缺、输入非法字符等
. 通常把缺失值标记为“ ”
四、缺失值的处理
3. 缺失值处理方法 替代法:采用统计命令或在相关统计功能中利用参数替代 Transform →Replace Missing Values 剔出法:剔除有缺失值的题目或剔除有缺失值的整份问卷
五、数据处理中的操作术语
3 您想选择下列哪些择偶条件(任选三 (1)相貌 (2)文化水准 (3)气质风度 (4)志同道合 (5)人品 (6)
项):
家庭条件 (7)个人收入 (8)其他
4 您购买房屋时,会考虑哪些因素(任 (1)离工作地点的远近 (2)小孩所就读的学校 (3)居家附近
选):
的环境
5 您对心理学感兴趣: 6 您对学英语感到厌恶:
A B C(A-1,B-2,C-3)
A B C(A-3,B-2,C-1)
样例
男
1
小学
2
文化水准 2
志同道合 4
人品
5
选
1
不选
0
选
1
A
1
A
3
三、编码类型
1. 数值型数据的编码 数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。 通常采用三点计分、四点计分和五点计分等方式进行评分 如选项A、B、C计分为1、2、3 如选项A、B、C、D计分为1、2、3、4
1-相貌;2-文化水准;3-气质风度; 志同 4 4-志同道合;5-人品;6-家庭条件; 道合 7-个人收入;8-其他
第3题-3
1-相貌;2-文化水准;3-气质风度; 人品 5 4-志同道合;5-人品;6-家庭条件; 7-个人收入;8-其他
第4题-工作 第4题-学校
1-选;0-不选 1-选;0-不选
编码示例中的第5、6题就是属于数值型编码
变量名 第5题 第6题
A B C(A-1,B-2,C-3) A B C(A-3,B-2,C-1)
正向数值型 (被选编项码的程度越高,分值越大)
A
A
反向数值型 (被选项的程度越高,分值越小)
样例 1 3
三、编码类型
2. 非数值型数据的编码
非数值型数据的编码,首先要确定编码规则,然后根 据规则对变量赋予分值。