资料分析的基础工作讲义(ppt 65页)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经济与管理学院 雷晶
8.1 资料的整理
一、编辑 二、编号 三、表格化 四、原始资料加工开发框架
经济与管理学院 雷晶
一、编辑
现场编辑 Vs. 办公室编辑
个人访问和焦点小组访谈等——现场编辑 邮寄问卷、电话访问等——办公室编辑
经济与管理学院 雷晶
一、编辑
资料编辑中常遇到的问题
① 假访问
如:公司员工平均收入 Vs. 各阶层收入及频率
经济与管理学院 雷晶
中位数的应用——区间型定序尺度的描述
管理研究常把变量属性集结成组,然后给出每组 的属性频率,如:
花销范围 <100
101~200 201~300 301~400
>400
学生人数 75 97 76 66 36
累计人数 75 172 248 314 350
>1万公 <1万公
里
里
51
73
50
73
49
27
50
27
7 170 2 150 2 430 6 050
☻结论:事故率是与驾驶里程数相关,而不是性别。
8.3 资料的表格化与图形化初步分析
1. 横列表中使用因素的选择 横列表使用的成功,取决于研究者选择的关键
因素,以及根据这些因素组成横列表的能力。
a) 简单的事实收集 b) 描述性研究 c) 探索性研究
经济与管理学院 雷晶
主要内容
1,350
2
193,500
3,300
3
171,000
15,900
4
154,000
37,950
1
151,500
60,000
2
145,500
69,600
3
132,000
79,500
4
121,500
91,500
结论:新产品可以替代老产品,老产品可以退市了。
案例8-1 如何正确分析不同广告的效果?
东风汽车公司要对3种广告设计进行测试,以判定哪一 种设计方案对提高汽车销量最有效。研究人员在不同时间 里分别选择在4个不同城市进行了市场试验,结果如表8-4。
Analyze——Descriptive Statistics——Frequency
三、表格化
开放式问题的分类归档
① 集中所有同一个开放式问题的全部文字性答案,通 过阅读、思考和分析,把握被调查者的思路;
② 将被调查者的回答按照其思想认识的不同归纳为若 干类,并计算各种类型的频数,制成全部答案分布 表;
35 1 0 /2 17 55
2. 计算中位数
Md L N 2cf f
201 3250 1727699 205
3. 结果:被抽查的350名学生的平均花销为205元
8.3 资料的表格化与图形化初步分析
二、多问题和多因素的综合分析——横列表法
思考:性别不同,花费差异显著么?
8.2 资料的分析与解释概述
二、分析与解释之间的相互依赖性
经济与管理学院 雷晶
分析:月亮牌销量 下降同时太阳牌销 量上升。
解释:月亮牌产品 的顾客转向了太阳 牌,新产品的出现 分流了老产品的顾 客。
两种产品的销量比较
季度 月亮牌(袋) 太阳牌(袋)
1
205,500
300
100
400
总计
100 400 500
总计
100 400 500
补充:市场调查设计
纵向调研设计的特点
优点:准确性高、低成本
群体相对稳定,具有长期合作性 数据收集技术相对专业、先进
缺点:代表性差和应答偏差
群体的流动性及替代者的代表性 对象的厌倦与熟练性
纵向调研设计应 用:请参阅教材 P263-266 消费者 固定样本连续调 查
将单个问题针对不同的被调查者类型或其他不 同因素进行分解分析。
经济与管理学院 雷晶
案例8-2 保险公司如何判断事故的影响因素?
某保险公司决定对影响保险户开车事故率的因素进行 调查。方法是对各种因素进行横列表分析,初始表8-8如下。
表8-8 驾驶者的事故率
项目 开车无事故
百分比(%) 61
开车时至少出过一次事故 样本数量(人)
二、双变量描述统计(bivariate descriptive statistics)
1. 定类和定序变量的关联分析——关联表、关联 性分析
2. 定距和定比变量的关联分析——回归分析、相 关分析
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
三、多变量描述统计(bivariate descriptive statistics)
Scale
经济与管理学院 雷晶
三、表格化
表格化是使答案以某种报告的形式出现,最 常见的表格化形式是频率分布和百分比分布。
您是否会买这种产品? 绝对会买
很可能会买 不知道
很可能不买 绝对不买 总和
数值(频率) 124 211 376 204 200 1115
经济与管理学院 雷晶
百分比(%) 11.1% 18.9% 33.7% 18.3% 17.9% 100.0%
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
一、每个问题的表格化和图形化分析工作
1. 频率分布分析 2. 平均值分析——算术平均数、中位数和众数
平均值分析与频率分布分析相比,往往会“吞” 掉一些信息,故而不一定是很好的数据处理指 标。
数据分析包括:描述统计 & 推断统计
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
一、单变量描述统计(univariate descriptive statistics)
1. 频数和频率分布 2. 集中趋势(central tendency)——众数(mode)、
100 400 500
100 400 500
时段2考察
100 400 500
100 400 500
时段2典型对象报告 品牌A 购买 不购买 总计
时段2典型对象报告 品牌B 购买 不购买 总计
纵向数据
时段1典型对象报告
品牌A
购买
不购买
100 0 100
购买
0 400 400 品牌B 不购买
0
100
100
1. 多变量关联表 2. 偏相关分析和多元回归分析 3. 因子分析
经济与管理学院 雷晶
II. 推断统计(inferential statistics)
一、参数估计
1. 点估计 2. 区间估计
经济与管理学院 雷晶
II. 推断统计(inferential statistics)
二、假设检验
1. 对立假设 2. 显著性实验 3. 参数和非参数检验
③ 对全部答案分布表进行挑选归并,确定可以接受的 分组数;
④ 根据分类归纳的结果,制成正式的答案分布表。
经济与管理学院 雷晶
被调查者对XXX的看法分布
看法分类
答案人数
符合环保要求
325
符合时代潮流
来自百度文库
286
符合消费需求
316
希望尽快推出
198
有可能实现
312
不可能实现
350
难以评价
213
合计
2000
比重(%) 16.25 14.30 15.8 9.90 15.6 17.50 10.65 100.00
——回访
② 不一致或矛盾的回答
③ 无法读懂的回答 ④ 不正确或不完全的回答 回访或深入分析
⑤ “不知道”和没有答案
经济与管理学院 雷晶
二、编号
编号是给问题的答案配上数字或符号以便为 表格化做准备。
1. 对量化资料进行分类编号
分类间隔相互排斥 分类间隔数不宜太少 间隔区间设置应有利于数据分析
经济与管理学院 雷晶
二、编号
2. 对定性资料进行分类编号
分类编号应包括所有可能的答案 分类简洁互斥 生活方式的分类可以包括回答者的年龄、性别、
家庭等
经济与管理学院 雷晶
二、编号
3. 数字尺度(度量尺度)的类型
类别尺度
Nominal
顺序尺度
Ordinal
等量尺度 比率尺度
Chapter 8
资料分析的基础工作
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
学习目标
1. 掌握对资料的基本整理方法 2. 将资料表格化,并能进行初步的分析 3. 掌握资料解释的基本方法和思路
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
2. 从横列表里发现含义 阅读教材P157 案例8-3 谁是常看电影的人?
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
3. 同步分析与顺序分析
顺序分析简单,但是容易导致错误结论; 同步分析善于解释事物之间的真实关系,但要
表8-4 不同广告设计对销量的影响
广告
跟广告有关的销量(辆)
A
2,431
B
2,164
C
1,976
分析:A广告下 的销量最大。
解释:A广告 最有效。
结论:选择A 广告。
表8-5 四城市的汽车销量比较(辆)
城市
广告
1
234
A
508 976 489 458
B
481 613 528 442
C
516 560 464 436
注意同步分析中选取因素的相关性。
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
4. 横列表的局限性
多因素分析困难; 可能遗漏需要分析的因素; 关键因素的选择比较困难。
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
三、数据分析
数据分析(data analysis)是从实际观测数据中 发现变量的特征、变化规则以及变量之间关 联的过程。
如何确定学生每月花销的具体数据呢?
Md LN 2cf f
Md——中位数; L ——中位数所在属性组的下限; N ——样本总数; cf ——中位数所在组以下的累计数; f ——中位数所在组的样本数; ω ——中位数所在组的属性间距。
1. 先找出中位数所在的属性组
中位数(median)和平均数(mean) 3. 离散趋势(dispersion tendency)——极差(range)、
四分互差(quartile deviation)、标准差(standard deviation)
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
39 17 800
表8-9 男女驾驶者的事故率
开车无事故 开车至少出过一次事故
样本数量(人)
男性(%)
56 44 9 320
女性(%)
66 34 8 480
☻结论:男性开车比女性容易出事故?
表8-10 不同驾驶距离下的事故率
开车无事故
至少出过 一次事故
被调查总数
男(%)
>1万公 <1万公
里
里
女 (%)
一、分析与解释的定义
分析是以某种有意义的形式或次序把收集的资 料重新展现出来。
解释是指在资料进行分析后找出信息块之间或 与其他已知信息之间的联系。
解释是把分析的资料、数据转变成信息的过程。
经济与管理学院 雷晶
前述案例,研究“性别”与“每周买报的个人花费” 之间的关系。
Analyze——Compare Means——Means
三、表格化
开放式问题分类归档的应用
阅读教材P164 案例1 对市长的评价,思考对开 放式问题进行归档处理应注意的问题
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
8.2 资料的分析与解释概述
补充:市场调查设计
横截面调研设计 Vs. 纵向调研设计
横截面调研设计因为是对不同应答者样本的衡 量,可能会误导调研结果;
纵向调研设计由于是对相同应答者样本的重复 衡量,可以更准确地衡量变化和发展趋势。
经济与管理学院 雷晶
品牌A 购买 不购买 总计 品牌B 购买 不购买 总计
横截面数据 时段1考察
总和
2,431 2,064 1,976
分组随机实验,但分析不深入,得出了错误的结论。
补充:市场调查设计
总结性调查
总结性调查(描述性调查和因果性调查)普遍 使用横截面市场调研设计。
横截面调研设计,也就是在一个时间点抽取一 个人口样本,通常称为“调研考察设计”。
特点:准确性、可靠性要求高
经济与管理学院 雷晶
补充:市场调查设计
业绩监控调查
业绩监控调查普遍使用纵向市场调研设计。 纵向市场调研设计一般适用于连续的业绩监控
需要,基本思路就是对固定人口样本(panel sample)进行反复衡量,所以经常被称为“典型 对象调研设计”。 特点:连续性、常规性,可比性高
经济与管理学院 雷晶
8.1 资料的整理
一、编辑 二、编号 三、表格化 四、原始资料加工开发框架
经济与管理学院 雷晶
一、编辑
现场编辑 Vs. 办公室编辑
个人访问和焦点小组访谈等——现场编辑 邮寄问卷、电话访问等——办公室编辑
经济与管理学院 雷晶
一、编辑
资料编辑中常遇到的问题
① 假访问
如:公司员工平均收入 Vs. 各阶层收入及频率
经济与管理学院 雷晶
中位数的应用——区间型定序尺度的描述
管理研究常把变量属性集结成组,然后给出每组 的属性频率,如:
花销范围 <100
101~200 201~300 301~400
>400
学生人数 75 97 76 66 36
累计人数 75 172 248 314 350
>1万公 <1万公
里
里
51
73
50
73
49
27
50
27
7 170 2 150 2 430 6 050
☻结论:事故率是与驾驶里程数相关,而不是性别。
8.3 资料的表格化与图形化初步分析
1. 横列表中使用因素的选择 横列表使用的成功,取决于研究者选择的关键
因素,以及根据这些因素组成横列表的能力。
a) 简单的事实收集 b) 描述性研究 c) 探索性研究
经济与管理学院 雷晶
主要内容
1,350
2
193,500
3,300
3
171,000
15,900
4
154,000
37,950
1
151,500
60,000
2
145,500
69,600
3
132,000
79,500
4
121,500
91,500
结论:新产品可以替代老产品,老产品可以退市了。
案例8-1 如何正确分析不同广告的效果?
东风汽车公司要对3种广告设计进行测试,以判定哪一 种设计方案对提高汽车销量最有效。研究人员在不同时间 里分别选择在4个不同城市进行了市场试验,结果如表8-4。
Analyze——Descriptive Statistics——Frequency
三、表格化
开放式问题的分类归档
① 集中所有同一个开放式问题的全部文字性答案,通 过阅读、思考和分析,把握被调查者的思路;
② 将被调查者的回答按照其思想认识的不同归纳为若 干类,并计算各种类型的频数,制成全部答案分布 表;
35 1 0 /2 17 55
2. 计算中位数
Md L N 2cf f
201 3250 1727699 205
3. 结果:被抽查的350名学生的平均花销为205元
8.3 资料的表格化与图形化初步分析
二、多问题和多因素的综合分析——横列表法
思考:性别不同,花费差异显著么?
8.2 资料的分析与解释概述
二、分析与解释之间的相互依赖性
经济与管理学院 雷晶
分析:月亮牌销量 下降同时太阳牌销 量上升。
解释:月亮牌产品 的顾客转向了太阳 牌,新产品的出现 分流了老产品的顾 客。
两种产品的销量比较
季度 月亮牌(袋) 太阳牌(袋)
1
205,500
300
100
400
总计
100 400 500
总计
100 400 500
补充:市场调查设计
纵向调研设计的特点
优点:准确性高、低成本
群体相对稳定,具有长期合作性 数据收集技术相对专业、先进
缺点:代表性差和应答偏差
群体的流动性及替代者的代表性 对象的厌倦与熟练性
纵向调研设计应 用:请参阅教材 P263-266 消费者 固定样本连续调 查
将单个问题针对不同的被调查者类型或其他不 同因素进行分解分析。
经济与管理学院 雷晶
案例8-2 保险公司如何判断事故的影响因素?
某保险公司决定对影响保险户开车事故率的因素进行 调查。方法是对各种因素进行横列表分析,初始表8-8如下。
表8-8 驾驶者的事故率
项目 开车无事故
百分比(%) 61
开车时至少出过一次事故 样本数量(人)
二、双变量描述统计(bivariate descriptive statistics)
1. 定类和定序变量的关联分析——关联表、关联 性分析
2. 定距和定比变量的关联分析——回归分析、相 关分析
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
三、多变量描述统计(bivariate descriptive statistics)
Scale
经济与管理学院 雷晶
三、表格化
表格化是使答案以某种报告的形式出现,最 常见的表格化形式是频率分布和百分比分布。
您是否会买这种产品? 绝对会买
很可能会买 不知道
很可能不买 绝对不买 总和
数值(频率) 124 211 376 204 200 1115
经济与管理学院 雷晶
百分比(%) 11.1% 18.9% 33.7% 18.3% 17.9% 100.0%
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
一、每个问题的表格化和图形化分析工作
1. 频率分布分析 2. 平均值分析——算术平均数、中位数和众数
平均值分析与频率分布分析相比,往往会“吞” 掉一些信息,故而不一定是很好的数据处理指 标。
数据分析包括:描述统计 & 推断统计
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
一、单变量描述统计(univariate descriptive statistics)
1. 频数和频率分布 2. 集中趋势(central tendency)——众数(mode)、
100 400 500
100 400 500
时段2考察
100 400 500
100 400 500
时段2典型对象报告 品牌A 购买 不购买 总计
时段2典型对象报告 品牌B 购买 不购买 总计
纵向数据
时段1典型对象报告
品牌A
购买
不购买
100 0 100
购买
0 400 400 品牌B 不购买
0
100
100
1. 多变量关联表 2. 偏相关分析和多元回归分析 3. 因子分析
经济与管理学院 雷晶
II. 推断统计(inferential statistics)
一、参数估计
1. 点估计 2. 区间估计
经济与管理学院 雷晶
II. 推断统计(inferential statistics)
二、假设检验
1. 对立假设 2. 显著性实验 3. 参数和非参数检验
③ 对全部答案分布表进行挑选归并,确定可以接受的 分组数;
④ 根据分类归纳的结果,制成正式的答案分布表。
经济与管理学院 雷晶
被调查者对XXX的看法分布
看法分类
答案人数
符合环保要求
325
符合时代潮流
来自百度文库
286
符合消费需求
316
希望尽快推出
198
有可能实现
312
不可能实现
350
难以评价
213
合计
2000
比重(%) 16.25 14.30 15.8 9.90 15.6 17.50 10.65 100.00
——回访
② 不一致或矛盾的回答
③ 无法读懂的回答 ④ 不正确或不完全的回答 回访或深入分析
⑤ “不知道”和没有答案
经济与管理学院 雷晶
二、编号
编号是给问题的答案配上数字或符号以便为 表格化做准备。
1. 对量化资料进行分类编号
分类间隔相互排斥 分类间隔数不宜太少 间隔区间设置应有利于数据分析
经济与管理学院 雷晶
二、编号
2. 对定性资料进行分类编号
分类编号应包括所有可能的答案 分类简洁互斥 生活方式的分类可以包括回答者的年龄、性别、
家庭等
经济与管理学院 雷晶
二、编号
3. 数字尺度(度量尺度)的类型
类别尺度
Nominal
顺序尺度
Ordinal
等量尺度 比率尺度
Chapter 8
资料分析的基础工作
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
学习目标
1. 掌握对资料的基本整理方法 2. 将资料表格化,并能进行初步的分析 3. 掌握资料解释的基本方法和思路
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
2. 从横列表里发现含义 阅读教材P157 案例8-3 谁是常看电影的人?
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
3. 同步分析与顺序分析
顺序分析简单,但是容易导致错误结论; 同步分析善于解释事物之间的真实关系,但要
表8-4 不同广告设计对销量的影响
广告
跟广告有关的销量(辆)
A
2,431
B
2,164
C
1,976
分析:A广告下 的销量最大。
解释:A广告 最有效。
结论:选择A 广告。
表8-5 四城市的汽车销量比较(辆)
城市
广告
1
234
A
508 976 489 458
B
481 613 528 442
C
516 560 464 436
注意同步分析中选取因素的相关性。
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
4. 横列表的局限性
多因素分析困难; 可能遗漏需要分析的因素; 关键因素的选择比较困难。
经济与管理学院 雷晶
8.3 资料的表格化与图形化初步分析
三、数据分析
数据分析(data analysis)是从实际观测数据中 发现变量的特征、变化规则以及变量之间关 联的过程。
如何确定学生每月花销的具体数据呢?
Md LN 2cf f
Md——中位数; L ——中位数所在属性组的下限; N ——样本总数; cf ——中位数所在组以下的累计数; f ——中位数所在组的样本数; ω ——中位数所在组的属性间距。
1. 先找出中位数所在的属性组
中位数(median)和平均数(mean) 3. 离散趋势(dispersion tendency)——极差(range)、
四分互差(quartile deviation)、标准差(standard deviation)
经济与管理学院 雷晶
I. 描述统计(descriptive statistics)
39 17 800
表8-9 男女驾驶者的事故率
开车无事故 开车至少出过一次事故
样本数量(人)
男性(%)
56 44 9 320
女性(%)
66 34 8 480
☻结论:男性开车比女性容易出事故?
表8-10 不同驾驶距离下的事故率
开车无事故
至少出过 一次事故
被调查总数
男(%)
>1万公 <1万公
里
里
女 (%)
一、分析与解释的定义
分析是以某种有意义的形式或次序把收集的资 料重新展现出来。
解释是指在资料进行分析后找出信息块之间或 与其他已知信息之间的联系。
解释是把分析的资料、数据转变成信息的过程。
经济与管理学院 雷晶
前述案例,研究“性别”与“每周买报的个人花费” 之间的关系。
Analyze——Compare Means——Means
三、表格化
开放式问题分类归档的应用
阅读教材P164 案例1 对市长的评价,思考对开 放式问题进行归档处理应注意的问题
经济与管理学院 雷晶
主要内容
8.1 资料的整理 8.2 资料的分析与解释概述 8.3 资料的表格化与图形化初步分析 8.4 资料的解释
经济与管理学院 雷晶
8.2 资料的分析与解释概述
补充:市场调查设计
横截面调研设计 Vs. 纵向调研设计
横截面调研设计因为是对不同应答者样本的衡 量,可能会误导调研结果;
纵向调研设计由于是对相同应答者样本的重复 衡量,可以更准确地衡量变化和发展趋势。
经济与管理学院 雷晶
品牌A 购买 不购买 总计 品牌B 购买 不购买 总计
横截面数据 时段1考察
总和
2,431 2,064 1,976
分组随机实验,但分析不深入,得出了错误的结论。
补充:市场调查设计
总结性调查
总结性调查(描述性调查和因果性调查)普遍 使用横截面市场调研设计。
横截面调研设计,也就是在一个时间点抽取一 个人口样本,通常称为“调研考察设计”。
特点:准确性、可靠性要求高
经济与管理学院 雷晶
补充:市场调查设计
业绩监控调查
业绩监控调查普遍使用纵向市场调研设计。 纵向市场调研设计一般适用于连续的业绩监控
需要,基本思路就是对固定人口样本(panel sample)进行反复衡量,所以经常被称为“典型 对象调研设计”。 特点:连续性、常规性,可比性高
经济与管理学院 雷晶