第五章数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中位数相同,平均数相同,但差异很大(离散趋势)
1极差(range) 组中最高值与最低值的差距。
2四分互差用于度量定序数据变异指标
将一组数列等分为四段,各段分界点上的数称为四分位数。第 一个四分位数q1以下包括25%的数据,第二个四分位数q2以下包括50% 的数据,第三个四分位数q3以下包括75%的数据。四分互差就是第三 个四分位数与第一个四分位数的差的一半。
第五章 数据分析
第1节 数据处理——调查资料的 编码
编码的类型 编码:将获取的资料转换成数字的过程,
即调查信息的数据化。如“1”表示“男 性”,“2”表示“女性”。
编码的目的:便于计算机的处理。 编码的类型:前编码和后编码 前编码:调查之前确定编码(封闭式问题) 后编码:调查之后确定编码(开放式问题)
6网络广告
7其他( )
4崇文 8石景山 12大兴 16密云
1 045 128
5
1 0 3 0 5 6 0
“无回答”的编码 如果被调查者没有回答某一问题,一般
使用一个具体数字表示,如“9”、“99”等。 如:国标编码,性别 0,1,9
第2节 统计分析
1对资料进行简化和描述 2对变量之间的关系进行描述和深入分析 3通过样本资料推断整体
若尺子不符合标准,测量无效;若尺子是标准的,测量又 有效,则无论测多少次,结果必定可信。
信度和效度的关系
信度和效度的关系
信度和效度的关系图
,
第六章 理论研究
学者们从两个方向来建构或检验理论,即演 绎和归纳。
演绎从一个抽象的合乎逻辑的概念关系出发, 趋向具体的实证证据推进。即由一般到具体,从 解释到事实。
归纳则是从观察现实世界出发,趋向更为抽 象的经验通则和概念推进。即由具体到一般,从 事实到解释。
两个铁球同时着地
演绎
理论架构
形式理论
假设检验 经验的社会实况
中距理论 实质理论
假设经验通则
演绎式理论建构
• 1.详细说明主题; • 2.详细说明理论所要探索的现象范围; • 3.详细说明主要的概念和变量; • 4.找出关于这些变量关系的既存理论和知识
• 这些都是从典型的基本前提出发,用演绎与数理分析 得到相应的理论。
几种思路
1.从公理出发演绎出支持假设的结论 理性人假设-George Homans 交易理论:得到奖励越多,越愿
意完成一项任务 G.Jasso分布式公平:1,比较原理,选择参照点比
较,判断准则是相对效用2.研究假设,实际拥 有—参照拥有3.操作假设-寻找可度量的变量 结论:一个人谋利偏向从自身所在群体而非外部群 体得到好处,准则是相对财富的增加
编码举例
(1)您个人的基本情况
A性别:1男 2女
B年龄: 周岁
C职业: (请注明)
(2)贵公司总部所处地理位置:
1东城
2西城
3宣武
5海淀
6朝阳
7丰台
9通州
10顺义
11平谷
13门头沟
14昌平
15延庆
17怀柔 18房山
(3)贵公司曾经做过哪些广告?(不限项)
1电视广告
2广播广告
3报纸广告
4杂志广告
5户外广告
按定类、定序、定距、定比尺度
描述统计
单变量描述统计 描述某个变量属性值的集中趋势、离散趋势及其分布 集中趋势分析(众数mode、中位数median、平均数mean) 1众数
观测数据中出现频率最高的属性值。定类尺度下适用 表9-1 集中趋势分析数据
年龄
25 26 27 28 29 30 31
人数
6 7 12 10 6 5 5
96,96,97,99,100,101,102,04,155 则,众数=96,中位数=100,平均数=105.6
22000,23000,23000,25000, 26000,28000,55000 众数=23000 中位数=25000 平均数=28857
离散趋势分析 描述数据的差异程度。
例: A: 39 39 39 40 41 41 41 B: 10 20 30 40 50 60 70
描述统计 推论统计
管理研究的评估
信度与效度
• 信度与效度,二者既有联系又有区别,信度高效度不一定 高,效度高则信度必定高,换句话说,可信的不一定是有 效的,有效的则必定是可信的。
• 信度是效度的必要条件,但不是效度的充分条件。 • 没有信度就不可能有效度,但有了信度不一定有效度。 • 例子:以尺量布,量了几次结果都一样,证明其信度高;
累计人数 6 13 25 35 41 46 51
2中位数 将变量数据一分为二的变量值。 样本为奇数:Md=(n+1)/2 样本为偶数:Md=(n+1)/2左右两数的平
均值 中位数适合描述定序尺度的数据集中趋势
有时也能描述定比和定距的集中趋势
3平均数 观测值的总和除以观测次数x =Σxi/N 。
定距和定比尺度下应用最多,特点是稳定,精确, 多次抽样平均趋于接近
q=( q3-q3 )/2
3标准差(定比和定距数据变异指标) 反映离中指标
σ:标准差 xi :样本值 x :平均数 N :样本数
(xi x)2
N
频数和频率分布 频数分布:描述变量观测值中各属性值
出现的次数 频率分布:频数分布/个案总数
对称分布和非对称分布
双变量描述统计
定序和定类变量的关联分析 关联表
(定理或命题); • 5.从这些主题逻辑地推论至所要研究的主题上。
演绎法例证
• 在“自利+理性”的前提假设下,再加上个人利益最大 化(生产者利益最大化、消费者利益最大化、在完全 理性完全信息基础上的期望收wk.baidu.com最大化),演绎为古 典经济学。
• 西蒙否定了“完备”理性的假设,提出了“有限理性” 概念,认为在不完备信息下无法得到全局最优,只能 在学习中不断完善,构建了决策理论。
变量关联的度量
(1)定类 变量与某一类属性相关的可能性 (2)定序(全序、偏序)变量的排序是正相关 还是负相关以及相关的程度
定距和定比变量的关联分析
相关性的有无、大小、方向,以及相关的具 体形态,可用作预测
(1)回归分析 (2)相关分析
多变量描述统计
多变量关联表—定类、定序 多元回归分析—定距、定比
以表格的形式显示两变量各种属性值组合的频数和频 率。列表示自变量,行表示因变量
因高
变 量
中
低
总计
自变量
低
中
21
47
38
41
79
14
138
102
高
总计
12
80
20
99
28
121
60 N=300
定序变量频率关联表
低
中
高 15.2% 46.1%
中 27.5% 40.2%
低 57.3% 13.7%
高 20% 33.3% 46.7%
1极差(range) 组中最高值与最低值的差距。
2四分互差用于度量定序数据变异指标
将一组数列等分为四段,各段分界点上的数称为四分位数。第 一个四分位数q1以下包括25%的数据,第二个四分位数q2以下包括50% 的数据,第三个四分位数q3以下包括75%的数据。四分互差就是第三 个四分位数与第一个四分位数的差的一半。
第五章 数据分析
第1节 数据处理——调查资料的 编码
编码的类型 编码:将获取的资料转换成数字的过程,
即调查信息的数据化。如“1”表示“男 性”,“2”表示“女性”。
编码的目的:便于计算机的处理。 编码的类型:前编码和后编码 前编码:调查之前确定编码(封闭式问题) 后编码:调查之后确定编码(开放式问题)
6网络广告
7其他( )
4崇文 8石景山 12大兴 16密云
1 045 128
5
1 0 3 0 5 6 0
“无回答”的编码 如果被调查者没有回答某一问题,一般
使用一个具体数字表示,如“9”、“99”等。 如:国标编码,性别 0,1,9
第2节 统计分析
1对资料进行简化和描述 2对变量之间的关系进行描述和深入分析 3通过样本资料推断整体
若尺子不符合标准,测量无效;若尺子是标准的,测量又 有效,则无论测多少次,结果必定可信。
信度和效度的关系
信度和效度的关系
信度和效度的关系图
,
第六章 理论研究
学者们从两个方向来建构或检验理论,即演 绎和归纳。
演绎从一个抽象的合乎逻辑的概念关系出发, 趋向具体的实证证据推进。即由一般到具体,从 解释到事实。
归纳则是从观察现实世界出发,趋向更为抽 象的经验通则和概念推进。即由具体到一般,从 事实到解释。
两个铁球同时着地
演绎
理论架构
形式理论
假设检验 经验的社会实况
中距理论 实质理论
假设经验通则
演绎式理论建构
• 1.详细说明主题; • 2.详细说明理论所要探索的现象范围; • 3.详细说明主要的概念和变量; • 4.找出关于这些变量关系的既存理论和知识
• 这些都是从典型的基本前提出发,用演绎与数理分析 得到相应的理论。
几种思路
1.从公理出发演绎出支持假设的结论 理性人假设-George Homans 交易理论:得到奖励越多,越愿
意完成一项任务 G.Jasso分布式公平:1,比较原理,选择参照点比
较,判断准则是相对效用2.研究假设,实际拥 有—参照拥有3.操作假设-寻找可度量的变量 结论:一个人谋利偏向从自身所在群体而非外部群 体得到好处,准则是相对财富的增加
编码举例
(1)您个人的基本情况
A性别:1男 2女
B年龄: 周岁
C职业: (请注明)
(2)贵公司总部所处地理位置:
1东城
2西城
3宣武
5海淀
6朝阳
7丰台
9通州
10顺义
11平谷
13门头沟
14昌平
15延庆
17怀柔 18房山
(3)贵公司曾经做过哪些广告?(不限项)
1电视广告
2广播广告
3报纸广告
4杂志广告
5户外广告
按定类、定序、定距、定比尺度
描述统计
单变量描述统计 描述某个变量属性值的集中趋势、离散趋势及其分布 集中趋势分析(众数mode、中位数median、平均数mean) 1众数
观测数据中出现频率最高的属性值。定类尺度下适用 表9-1 集中趋势分析数据
年龄
25 26 27 28 29 30 31
人数
6 7 12 10 6 5 5
96,96,97,99,100,101,102,04,155 则,众数=96,中位数=100,平均数=105.6
22000,23000,23000,25000, 26000,28000,55000 众数=23000 中位数=25000 平均数=28857
离散趋势分析 描述数据的差异程度。
例: A: 39 39 39 40 41 41 41 B: 10 20 30 40 50 60 70
描述统计 推论统计
管理研究的评估
信度与效度
• 信度与效度,二者既有联系又有区别,信度高效度不一定 高,效度高则信度必定高,换句话说,可信的不一定是有 效的,有效的则必定是可信的。
• 信度是效度的必要条件,但不是效度的充分条件。 • 没有信度就不可能有效度,但有了信度不一定有效度。 • 例子:以尺量布,量了几次结果都一样,证明其信度高;
累计人数 6 13 25 35 41 46 51
2中位数 将变量数据一分为二的变量值。 样本为奇数:Md=(n+1)/2 样本为偶数:Md=(n+1)/2左右两数的平
均值 中位数适合描述定序尺度的数据集中趋势
有时也能描述定比和定距的集中趋势
3平均数 观测值的总和除以观测次数x =Σxi/N 。
定距和定比尺度下应用最多,特点是稳定,精确, 多次抽样平均趋于接近
q=( q3-q3 )/2
3标准差(定比和定距数据变异指标) 反映离中指标
σ:标准差 xi :样本值 x :平均数 N :样本数
(xi x)2
N
频数和频率分布 频数分布:描述变量观测值中各属性值
出现的次数 频率分布:频数分布/个案总数
对称分布和非对称分布
双变量描述统计
定序和定类变量的关联分析 关联表
(定理或命题); • 5.从这些主题逻辑地推论至所要研究的主题上。
演绎法例证
• 在“自利+理性”的前提假设下,再加上个人利益最大 化(生产者利益最大化、消费者利益最大化、在完全 理性完全信息基础上的期望收wk.baidu.com最大化),演绎为古 典经济学。
• 西蒙否定了“完备”理性的假设,提出了“有限理性” 概念,认为在不完备信息下无法得到全局最优,只能 在学习中不断完善,构建了决策理论。
变量关联的度量
(1)定类 变量与某一类属性相关的可能性 (2)定序(全序、偏序)变量的排序是正相关 还是负相关以及相关的程度
定距和定比变量的关联分析
相关性的有无、大小、方向,以及相关的具 体形态,可用作预测
(1)回归分析 (2)相关分析
多变量描述统计
多变量关联表—定类、定序 多元回归分析—定距、定比
以表格的形式显示两变量各种属性值组合的频数和频 率。列表示自变量,行表示因变量
因高
变 量
中
低
总计
自变量
低
中
21
47
38
41
79
14
138
102
高
总计
12
80
20
99
28
121
60 N=300
定序变量频率关联表
低
中
高 15.2% 46.1%
中 27.5% 40.2%
低 57.3% 13.7%
高 20% 33.3% 46.7%