数据模型与决策.ppt
合集下载
数据、决策与模型.ppt
什么是模型? 模型与决策:决策离不开模型 决策类别与模型的类别 决策的基础——理解人的行为思想 如何让人讲真话:(信息经济学) 合同理论
1.1 什么是模型
模型是描述信息输入到行动输出的 法则与机制 模型无处不在
1.2 模型与决策
决策离不开模型 模型有优劣之分 决策优化的过程就是模型改良的过 程
3. 非对称信息条件下的激励与保险
对称信息条件下的合同 非对称信息条件下的激励与保险
3.1. 对称信息条件下的合同
什么是委托人和代理人? 对称信息条件下的最优风险分担 对称信息条件下的最优努力水平 两个最优
3.1.1 委托人和代理人
在信息经济学中,委托-代理关系泛指任何一 种涉及非对称信息的交易,有私人信息(信息 优势)的一方叫代理人,另一方叫委托人。即 知情者(informed player)叫代理人,不知 情者(uninformed ~ )叫委托人。
1.5.1 决策时我们知道什么?
规则和信息:信息环境,包括竞 争对手的特征,包括偏好、支付 等,可能的战略选择。
1.5.2 如何了解代理人?
甄别问题:代理人披露的信息是否 真实?
1.5.3 如何使代理人努力工作?
凭什么努力工作:激励
1.5.4.最优合同
数据模型与决策概述PPT(37张)
线性部分反映了由于 x 的变化而引起的 y 的变化
误差 e 是随机变量,通常假设服从正态N(0,σ2)
b0 和 b1称为模型的参数
最小二乘法
n
n
Q(bˆ0,bˆ1) ( yi yˆ)2 ei2 最小
i 1
i 1
最小二乘法的几何解释
最小二乘解
n
n n
n xi yi xi yi
10
9
8
7
6
5
4
3
2 y = -0.1541x + 7.0346
1 R2 = 0.0539,R=-0.232
0
0
2
4
6
8
10
12
18
16
14
12
10
8
6
4
y = 1.3239x + 0.6824
2 R2 = 0.9289,R=0.964
0
0
2
4
6
8
10
12
回归模型诊断 合适 不合适
误差的正态性:残差的直方图是不是正态
银行不良贷款率
通过分析,最佳模型是建立Y与X1、X2的二 元回归
Y ˆ 0 .9 2 0 .2 2X 7 1 0 8 .1X 9 2 5
课后讨论题
案例分析9:美国国家税务局税额数据分析
数据模型与决策ppt课件
3.1 类别数据的表格表示
例3.1 交通事故的驾驶因素分析 造成交通事故的驾驶因素有判断失误、察
觉得晚、驾驶错误、偏离规定的行驶路线 和酒后或疲劳驾驶等。某地区交通管理部 门对某段时间中的50起交通事故进行驾驶因 素分析,得到的原始数据如下:
16
驾驶错误 察觉得晚 判断失误 驾驶错误 酒后或疲劳 驾驶 察觉得晚
7
案例1 有兄弟姐妹的人得病少
有兄弟姐妹一起成长,不仅增添亲情, 而且有预防疾病的好处
一项来自澳大利亚的研究表明:兄弟 姐妹在6岁之前的相互传染病毒可以增 强免疫功能,并预防多发性硬化症。
塔斯马尼亚州研究者观察了136名多发 性硬化症患者,并与272名健康者进行 了对比。
8
科学家发现:在幼儿时期与兄弟姐妹 有五年以上密切生活的人患多发性硬 化症的几率下降了88%,而与兄弟姐妹 接触1-3年的人可降低43%。
决策是目的且具有量的特征,定量可以对 问题的描述较精确,能对问题的本质进行 深入、广泛的推断,为科学决策提供依据。
是一门多学科交叉的科学,数理统计学与 运筹学、管理学是其基础
计算机技术是必不可少的工具。
5
实际问题1:资源分配问题
潘得罗索工业公司生产胶合板,根据厚度 和所用木材的质量而有所不同。因为产品 在一个竞争的环境中进行销售,产品的价 格由市场决定。所以每个月管理层面临的 一个关键问题是选择产品组合以获取尽可 能多的利润。需要考虑当前生产产品必须 的各种资源的可得数量。六项最重要的资 源为(1)四种类型的原木(根据原木的质 量区分)和(2)生产胶合板的两项关键作 业的生产能力(模压作业和刨光作业)。 你们公司有这样的经历吗?
例3.1 交通事故的驾驶因素分析 造成交通事故的驾驶因素有判断失误、察
觉得晚、驾驶错误、偏离规定的行驶路线 和酒后或疲劳驾驶等。某地区交通管理部 门对某段时间中的50起交通事故进行驾驶因 素分析,得到的原始数据如下:
16
驾驶错误 察觉得晚 判断失误 驾驶错误 酒后或疲劳 驾驶 察觉得晚
7
案例1 有兄弟姐妹的人得病少
有兄弟姐妹一起成长,不仅增添亲情, 而且有预防疾病的好处
一项来自澳大利亚的研究表明:兄弟 姐妹在6岁之前的相互传染病毒可以增 强免疫功能,并预防多发性硬化症。
塔斯马尼亚州研究者观察了136名多发 性硬化症患者,并与272名健康者进行 了对比。
8
科学家发现:在幼儿时期与兄弟姐妹 有五年以上密切生活的人患多发性硬 化症的几率下降了88%,而与兄弟姐妹 接触1-3年的人可降低43%。
决策是目的且具有量的特征,定量可以对 问题的描述较精确,能对问题的本质进行 深入、广泛的推断,为科学决策提供依据。
是一门多学科交叉的科学,数理统计学与 运筹学、管理学是其基础
计算机技术是必不可少的工具。
5
实际问题1:资源分配问题
潘得罗索工业公司生产胶合板,根据厚度 和所用木材的质量而有所不同。因为产品 在一个竞争的环境中进行销售,产品的价 格由市场决定。所以每个月管理层面临的 一个关键问题是选择产品组合以获取尽可 能多的利润。需要考虑当前生产产品必须 的各种资源的可得数量。六项最重要的资 源为(1)四种类型的原木(根据原木的质 量区分)和(2)生产胶合板的两项关键作 业的生产能力(模压作业和刨光作业)。 你们公司有这样的经历吗?
《数据模型与决策》课件
03
未来还需要加强数据安全和隐 私保护等方面的研究,以保障 数据的安全性和可靠性。
数据模型与决策的实际应用价值
数据模型与决策在企业管理 中具有重要的应用价值,可 以帮助企业进行科学决策和
优化资源配置。
数据模型与决策还可以帮助 企业提高市场竞争力,如通 过数据分析发现市场趋势和 消费者需求,制定更加精准
《数据模型与决策》ppt课件
目录
• 数据模型基础 • 决策分析方法 • 数据模型与决策的关系 • 实际案例分析 • 总结与展望
01
数据模型基础
数据模型定义
总结词
数据模型是用来表示现实世界中数据和信息的一种抽象框架,它以结构化的方式组织和表示数据,以便更好地理 解和管理数据。
详细描述
数据模型定义了数据的组织方式、数据之间的关系以及数据的属性。它提供了一种通用的语言,使人们能够以结 构化的方式理解和描述数据。数据模型有助于简化复杂的数据结构,使数据的表示更加直观和易于理解。
详细描述
通过数据分析确定最佳的物流配送路线和 运输方式,利用优化模型和算法提高物流 配送效率,降低运输成本。
05
总结与展望
数据模型与决策的总结
数据模型与决策是现代管理科学中的重要工具,通过数据模型可以对复杂 数据进行处理、分析和预测,为决策提供科学依据。
数据模型与决策在实际应用中具有广泛的应用价值,如市场营销、金融投 资、风险管理等领域。
数据、模型与决策(第10版)PPT taylor_introms10_ppt_04
4-10
A Diet Example Data and Problem Definition (1 of 5)
Breakfast Food
Fat Cholesterol Iron Calcium Protein Fiber Cost
48
125
T-shirt - F
0.08
25
来自百度文库45
T-shirt - B/F
0.21
35
65
Copyright © 2010 Pearson Education, Inc. Publishing as Prentice Hall
4-5
A Product Mix Example Model Construction (4 of 8)
Copyright © 2010 Pearson Education, Inc. Publishing as Prentice Hall
4-3
A Product Mix Example (2 of 8)
Copyright © 2010 Pearson Education, Inc. Publishing as Prentice Hall
Decision Variables: x1 = sweatshirts, front printing x2 = sweatshirts, back and front printing x3 = T-shirts, front printing x4 = T-shirts, back and front printing
《数据模型与决策》课件
混合过滤模型
结合协同过滤和内容过滤的优势,为用户提供更加精准的推荐。
医疗健康领域
疾病预测模型
基于历史病例数据和医学知 识,预测患者未来可能患有 的疾病。
个性化治疗方案
根据患者的基因组、生活习 惯和病情,为其提供个性化 的治疗方案。
药物研发
利用数据模型对大量化合物 进行筛选,加速新药的研发 过程。
自然语言处理领域
卷积神经网络
适用于图像处理和计算机视觉任务。
自组织映射网络
用于聚类和可视化高维数据。
回归模型
线性回归
通过最小化预测误差的平方和来预测一个或多个因变量的值。
支持向量回归
使用支持向量机技术来预测连续目标变量的值。
多层感知器回归
使用神经网络技术来预测连续目标变量的值。
岭回归和套索回归
处理共线性数据的回归模型。
模型优化
根据评估结果,对模型进行调整和改进,以 提高模型的预测性能和稳定性。
04
数据模型的应用场景
BIG DATA EMPOWERS TO CREATE A NEW
ERA
金融风控领域
01
信用评分模型
利用历史数据和机器学习算法, 对借款人的信用状况进行评估, 以降低信贷风险。
反欺诈模型
02
03
投资组合优化模型
准确度
衡量模型预测结果的正确率,是最直观的评估指 标。
结合协同过滤和内容过滤的优势,为用户提供更加精准的推荐。
医疗健康领域
疾病预测模型
基于历史病例数据和医学知 识,预测患者未来可能患有 的疾病。
个性化治疗方案
根据患者的基因组、生活习 惯和病情,为其提供个性化 的治疗方案。
药物研发
利用数据模型对大量化合物 进行筛选,加速新药的研发 过程。
自然语言处理领域
卷积神经网络
适用于图像处理和计算机视觉任务。
自组织映射网络
用于聚类和可视化高维数据。
回归模型
线性回归
通过最小化预测误差的平方和来预测一个或多个因变量的值。
支持向量回归
使用支持向量机技术来预测连续目标变量的值。
多层感知器回归
使用神经网络技术来预测连续目标变量的值。
岭回归和套索回归
处理共线性数据的回归模型。
模型优化
根据评估结果,对模型进行调整和改进,以 提高模型的预测性能和稳定性。
04
数据模型的应用场景
BIG DATA EMPOWERS TO CREATE A NEW
ERA
金融风控领域
01
信用评分模型
利用历史数据和机器学习算法, 对借款人的信用状况进行评估, 以降低信贷风险。
反欺诈模型
02
03
投资组合优化模型
准确度
衡量模型预测结果的正确率,是最直观的评估指 标。
数据模型决策03决策技术(PPT76页)
计算过程如下: ⑴ 先取每一列中最大值,用这一最大值减去该列的各个元素。
bij
max
1im
aij
aij
i 1,2,, m
j 1,2,, n
⑵ 再取每一行结果的最大值。
u(
Ai
)
max
1 jn
bij
⑶ 最优方案为
j 1,2,, n
u(
A* i0
)
min
1in
u(
Ai
5.决策问题通常分:
(1) 确定型
决策问题 (2) 不确定型
(3) 风险型
第一节 不确定型决策方法
不确定型决策问题须具备以下几个条件: ① 有一个决策希望达到的目标(如收益最大或损失最小)。 ② 存在两个或两个以上的行动方案。 ③ 存在两个或两个以上的自然状态,但是既不能确定未来哪 个状态必然发生,又无法得到各种自然状态在未来发生的概率。 ④每个行动方案在不同自然状态下的益损值可以计算出来。 对于不确定型决策问题,有一些常用的决策方法,或称为不 确定型决策准则。
方案
准则
A1
A2
A3
悲观准则
乐观准则
折衷准则
等可能准则
遗憾准则
处理实际问题时可同时采用几个准则来进行比较分析 。 一般来讲,被选中多的方案应予以优先考虑。
数据、模型与决策--线性规划(PPT 110页)
数据、模型与决策 2021/4/10
线性规划
Linear Programming
1.1 LP的数学模型 1.2 图解法 1.3 标准型 1.4 基本概念 1.5 单纯形法
Mathematical Model of LP
Graphical Method
Standard form of LP
Basic Concepts Simplex Method
2021/4/10
1.1 数学模型
Mathematical Model
制作与教学
1.1 线性规划的数学模型 Mathematical Model of LP
线性规划
Linear Programming
2021/4/10
Page 3
线性规划(Linear Programming,缩写为LPห้องสมุดไป่ตู้是运筹学的重要 分支之一,在实际中应用得较广泛,其方法也较成熟,借助 计算机,使得计算更方便,应用领域更广泛和深入。
00..12x51x1 0.00.53xx32
0.15x5 0.1 0.2x3 0.4x4
0.17 x5
0.55
0.25x1 0.3x 2 0.2x3 0.4x4 0.17x5 0.35
0.7x1 0.7x2 0.4x3 0.8x4 0.45x5 1
x
j
0,
线性规划
Linear Programming
1.1 LP的数学模型 1.2 图解法 1.3 标准型 1.4 基本概念 1.5 单纯形法
Mathematical Model of LP
Graphical Method
Standard form of LP
Basic Concepts Simplex Method
2021/4/10
1.1 数学模型
Mathematical Model
制作与教学
1.1 线性规划的数学模型 Mathematical Model of LP
线性规划
Linear Programming
2021/4/10
Page 3
线性规划(Linear Programming,缩写为LPห้องสมุดไป่ตู้是运筹学的重要 分支之一,在实际中应用得较广泛,其方法也较成熟,借助 计算机,使得计算更方便,应用领域更广泛和深入。
00..12x51x1 0.00.53xx32
0.15x5 0.1 0.2x3 0.4x4
0.17 x5
0.55
0.25x1 0.3x 2 0.2x3 0.4x4 0.17x5 0.35
0.7x1 0.7x2 0.4x3 0.8x4 0.45x5 1
x
j
0,
数据模型与决策PPT课件
另一个线性规划系统是供应、配送和营销模型系统(或简称 SDM系统) 引人系统多年后直至今日,Citgo石油公司继续在 使用该系统并且从系统中得到好处。它是以一类特殊的线性规 划模型为基础,应用网络对所要研究的系统进行描述,这个模 型是对Citgo石油公司全部营销和配送网络的一个表述。
第13页/共56页
第11页/共56页
经典应用
Citgo石油集团
Citgo石油公司专长于石油炼制和销售,1980年代中期,它 每年的销售额有几十亿美元,是美国150大工业公司之一。经 过几年的财务亏损后,1983年被Southland集团收购了, Southland集团是7-11便利连锁店的拥有者(7-11便利连锁店 每年销售20亿加仑高质量的汽车燃油),为了扭转 Citgo石油 公司的亏损局面,Southland集团组建了一个由Southland集团 人员、Citgo石油公司人员和外部咨询顾问组成的任务小组, 一位管理科学咨询顾问被任命为小组的负责人并直接向Citgo 石油公司总裁和Southland集团董事长汇报工作。
·8英尺的铝框玻璃门 ·4英尺X6英尺的双把木框窗
公司有三个工厂: 工厂1:生产铝框和硬制件 工厂2:生产木框 工厂3:生产玻璃和组装窗和门
第16页/共56页
产品组合问题 伟恩德公司产品组合问题
8英尺玻璃门需要工厂1和工厂3的一些生产能力,但 不需要工厂2的生产能力。 4英尺X6英尺的双把窗需要工厂2和工厂3的生产能。
《数据、模型与决策》PPT
提高国家的经济生产力 促进商业运作的规范性 节约大量稀有的资源
为管理科学实践者颁发的最负盛名的奖项是
弗兰茨· 厄德曼(Franz Edelman) 奖。这些奖项授予 全世界年度管理科学的最佳应用。
2012-4
DMD——Liuhualing
MBA
理论领域 线性规划 目标规划 预 测 网络优化 决策分析 库存模型 排队论 模 拟
MBA
数据、模型与决策
刘华玲
Liuhualing99 @ gmail.com
2012-4
DMD——Liuhualing
MBA
管理科学简介
2012-4
DMD——Liuhualing
MBA
内容纲要
1)什么是管理科学?
2)管理科学的由来
3)运用数学模型解决管理问题
4)管理科学的作用
Βιβλιοθήκη Baidu
2012-4
DMD——Liuhualing
录用雇员 指导 激励 分配资源 监督 控制 通告
2012-4
DMD——Liuhualing
MBA
管理者
数据、模型与决策
信息提供 模型 结论 决策 执行 反馈 结果
管理者在组织内制定决策 《数据、模型与决策》课程的目的是在科学、符合逻辑 和合理的基础上制定决策。 讲授的内容主要是管理科学。
2012-4
为管理科学实践者颁发的最负盛名的奖项是
弗兰茨· 厄德曼(Franz Edelman) 奖。这些奖项授予 全世界年度管理科学的最佳应用。
2012-4
DMD——Liuhualing
MBA
理论领域 线性规划 目标规划 预 测 网络优化 决策分析 库存模型 排队论 模 拟
MBA
数据、模型与决策
刘华玲
Liuhualing99 @ gmail.com
2012-4
DMD——Liuhualing
MBA
管理科学简介
2012-4
DMD——Liuhualing
MBA
内容纲要
1)什么是管理科学?
2)管理科学的由来
3)运用数学模型解决管理问题
4)管理科学的作用
Βιβλιοθήκη Baidu
2012-4
DMD——Liuhualing
录用雇员 指导 激励 分配资源 监督 控制 通告
2012-4
DMD——Liuhualing
MBA
管理者
数据、模型与决策
信息提供 模型 结论 决策 执行 反馈 结果
管理者在组织内制定决策 《数据、模型与决策》课程的目的是在科学、符合逻辑 和合理的基础上制定决策。 讲授的内容主要是管理科学。
2012-4
数据模型与决策-管理科学导论课件
数据分析
数据库管理系统可以支持数据分析,帮助决策者获 取有价值的信息,从而做出更好的决策。
数据安全
数据库管理系统提供了各种安全功能,如访问控制 和数据备份,保护数据免受未经授权的访问和损坏。
数据库的分类和设计
数据库分类
数据库可以根据数据组织的方式进行分类,如层次 型数据库、网状型数据库和关系型数据库。
数据库百度文库计
数据库设计是指根据需求分析和数据模型的原理, 设计数据库结构、定义关系和属性,并制定数据存 取的规则。
实体-关系模型(ER模型)
1 实体
2 关系
实体是现实世界中具有独立存在和可区分性 质的事物,通过实体间的关系来描述和表达。
关系是实体之间的联系,可以是一对一、一 对多或多对多的关系。它用于表示实体之间 的关联和依赖。
决策的概念和决策分类
1 决策的概念
决策是根据一定的信息和目标,做出选择和 行动的过程。它是管理科学中的关键环节。
2 决策分类
决策可以根据决策的性质和决策的制定级别 进行分类,例如战略决策、战术决策和操作 决策。
数据库管理系统的作用
数据管理
数据库管理系统可以帮助组织和管理大量的数据, 提高数据的存储和检索效率。
数据挖掘应用
数据挖掘在市场分析、客户关系管理、风险评估等 领域具有重要的应用价值。
数据库规范化(Normalization)
数据、模型与决策-管理科学导论PPT课件
非线性规划优化
01
非线性规划是优化方法的一种,其目标函数或约束条件至少有一个是 非线性的。
02Βιβλιοθήκη Baidu
非线性规划的优点是可以处理更复杂的决策问题,如多目标优化、约 束条件之间的非线性关系等。
03
非线性规划的求解方法包括梯度法、牛顿法、拟牛顿法等,这些方法 通过迭代过程逐步逼近最优解。
04
非线性规划在经济学、金融和工程等领域有广泛应用。
03
模型在管理科学中的应用
线性规划模型
线性规划模型是管理科学中常用的数学模型之一,用于解决优化问题,如 资源分配、生产计划等。
线性规划模型将问题抽象为一系列线性不等式约束下的线性目标函数最优 化的过程,通过求解线性规划问题可以得到最优解。
线性规划模型广泛应用于生产、管理、运输等领域,为企业和组织提供决 策支持。
• 详细描述:多属性决策分析要求决策者根据实际问题和背景,确定相关的属性 或准则,并赋予相应的权重。然后,对各个方案在不同属性下的表现进行综合 评估,得出最终的优劣排序。
• 总结词:多属性决策分析方法包括加权和法、加权积法、TOPSIS法等,这些 方法可以帮助决策者综合考虑多个因素,从而做出更全面的决策。
的决策支持。
人机协作
03
人工智能可以协助人类完成复杂任务,提高工作质量和效率。
可持续发展与绿色管理
数据模型与决策-31(连续分布)-PPT文档资料
成年男子的身高:平均数 167.48 厘米, 标准差 6.09 厘米。
成年女子的身高:平均数 156.58 厘米, 标准差 5.47 厘米。
成年男子身高的分布N(167.48, 6.092) 成年女子身高的分布N(156.58, 5.472)
Paxb
面积与概率
P(X≤a)
P(a<X ≤ b)
P(X>b)
概率90%
概率5%
–1.64
0
1 1.64
标准正态分布的中间部分的概率
N 0,1
1
2
2
0
标准正态分布 与 的值
双尾概率
0.20 0.10 0.05 0.01
ຫໍສະໝຸດ Baidu
中间部分的概率1
80% 90% 95% 99%
1.2816 1.6449 1.9600 2.5758
3σ原则,经验法则
若 X 服从正态分布N(,2),那么
收入
概率密度函数
频率 0.25 0.20 0.15
如果希望计算收入在a、b 之间的人口比例,只要求 图中红色的面积。
0.10 0.05
500 a 1000 1500 b 2000 2500
收入
累积分布函数
累积分布函数F(t)定义为:随机变量不大于t的概 率,即
F(t)P(Xt)
频率 0.20
成年女子的身高:平均数 156.58 厘米, 标准差 5.47 厘米。
成年男子身高的分布N(167.48, 6.092) 成年女子身高的分布N(156.58, 5.472)
Paxb
面积与概率
P(X≤a)
P(a<X ≤ b)
P(X>b)
概率90%
概率5%
–1.64
0
1 1.64
标准正态分布的中间部分的概率
N 0,1
1
2
2
0
标准正态分布 与 的值
双尾概率
0.20 0.10 0.05 0.01
ຫໍສະໝຸດ Baidu
中间部分的概率1
80% 90% 95% 99%
1.2816 1.6449 1.9600 2.5758
3σ原则,经验法则
若 X 服从正态分布N(,2),那么
收入
概率密度函数
频率 0.25 0.20 0.15
如果希望计算收入在a、b 之间的人口比例,只要求 图中红色的面积。
0.10 0.05
500 a 1000 1500 b 2000 2500
收入
累积分布函数
累积分布函数F(t)定义为:随机变量不大于t的概 率,即
F(t)P(Xt)
频率 0.20
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10.11.2020
问题的措辞也可能造成误差 问题的措辞造成的误差是计量误差的一种。例3.3显示了由 于问题的措辞不同而造成的不同的调查结果。研究表明,问 卷的不同用词会造成被调查者不同的反应,从而造成调查误 差。我们来看几个措辞不当的问题。
10.11.2020
问:您住的地方到这里是多少时间的路程? 1、不超过10分钟 2、10~20分钟 3、20~30分钟 4、30分钟以上 用什么方式呢?步行?骑自行车?乘汽车?还是坐飞碟?
10.11.2020
实际的抽样调查是很复杂的,即使采用了好的随机抽样 方法、准确地计算了误差界限,调查结果也不一定可靠。 就拿例3.1来说,本来应该是对打架双方都进行调查,但 已经死去的被调查者无法回答,而剩下的被调查者又可 能为保全自己而不如实地回答。那么,这样的调查结果 会可靠吗?
下面,我们来看看抽样调查有些什么样的误差来源,以 及抽样调查者应如何与之奋斗。
数据、模型与决策
数据的产生与图表描述
一、 调查面面观 二、 实验面面观 三、 数据的图表描述
10.11.2020
一、 调查面面观
1.1 调查如何出错 1.2 抽样误差与非抽样误差 1.3 抽样设计 1.4 解读调查结论
10.11.2020
1.1 调查如何出错 例1.1 谁先动手? 有人调查研究酒吧里的打架致死事件,发现其中90
问: 您全家的月收入是多少? 1、低于2000元 2、2000~5000元 3、5000~8000元 4、8000~11000元 5、11000元以上 “全家”的定义是什么?“月收入”包括哪些?而且各 月收入不同怎么办?
10.11.2020
问:您是否赞成禁止私人拥有枪械以降低犯罪率? 1、很赞成 2、比较赞成 3、说不清 4、比较不赞成
%都是死掉的那个人先动手。真是这样吗? 如果你跟人打架把对方给揍死了,警察问你谁先动
手的时候你怎么回答?
10.11.2020
例1.2 美国的种族效应 1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位黑 人州长。这两个事件,在投票所访问投完票的选民后所预测到 的胜负差距,都比实际开票的差距大。 因此,调查机构相当确定,有些受访选民因为不愿承认没投票 给黑人候选人而说了谎。
心理研究表明,低收入和高收入的人倾向于不回答问卷, 因此中等收入的人在回答者中的比例过高。为此现代调查机构 更喜欢采用亲自询问来代替邮寄问卷
10.11.2020
即使亲自询问,也有不回答偏性的问题。 访问员来访时,不在家的人与在家接受访问的人可能在 工作时间、家庭关系和社会背景等方面有比较大的差异,从 而看法也不一样。 例如有一项关于快餐的市场调查。抽取500户家庭进行 调查。白天访问时,有150户家庭没人。能不能仅用白天有人 的350户家庭的数据?不能。这里有不回答偏性。白天不在家 的150户可能是吃快餐比较多的家庭。
那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人 的样本,预测罗斯福会以56%对44%的优势获胜。
实际结果是,罗斯福以62%对38%的优势胜出。当时有人说, 这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后, 盖洛普的调查机构得到迅速的发展,国内外闻名,而《文学 摘要》杂志不久就垮了。 《文学摘要》杂志的调查方法有什么问题?
10.11.2020
例1.3 权威人物的意见 有两个内容相同的问题: 问题A:陆军部和海军部应当合并为统一的作战部,您同意 么? 问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统 一的作战部,您同意么? 结果对问题A表示同意的比例为29%,而对问题B表示同意 的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔 将军的意见影响了被调查者的意见。
10.11.2020
误差按其性质可以分为两类,一类是抽样误差,它是由于抽 选样本的随机性而产生的误差。只有采用概率抽样的方式才 可能估计抽样误差。另一类是非抽样误差,它是指除抽样误 差以外的、由于各种原因而引起的误差。 在概率抽样、非概率抽样和全面调查中,非抽样误差都有可 能存在。 若采用了概率抽样方法,那么我们可以估计出抽样误差的大 小,还可以通过选择样本量的大小来控制抽样误差。在谨慎 执行的抽样调查中,抽样误差通常不大。而非抽样误差相对 比较难以估计和控制。
10.11.2020
Байду номын сангаас
例1.4 总统选举预测 1936年民主党人罗斯福任美国总统第一任满,共和党人兰登 与他竞选总统。
《文学摘要》杂志根据有约二百四十万人参加的民意测验, 预测兰登会以57%对43%的优势获胜。自1916年以来的五届 总统选举中,《文学摘要》杂志都正确地预测出获胜的一方, 其影响力很大。
10.11.2020
此外,《文学摘要》杂志调查的一千万人中只有二百四 十万人回答了问卷,不回答者可能非常有别于回答者,这二百 四十万人代表不了被邮寄问卷的一千万人。
譬如,1936年《文学摘要》杂志的一次专门的调查,给 在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了 回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加 哥的得票率只有三分之一。所以当出现高不回答率时,谨防不 回答偏性。
10.11.2020
继续例1.4 从常理来看,应该调查数据越多,结论越可靠。 罗斯福的实际得票率为62%,《文学摘要》杂志的预测为
43%,误差达到19%。误差之大令人惊异。这样大的误差是怎 么得来的呢?
经过研究发现,原因在于《文学摘要》杂志选取样本有 偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄 给一千万人。当时美国四个家庭中仅有一家装电话。他选取 的样本有排斥穷人的选择偏性。这样的民意测验非常不利于 民主党人罗斯福。
10.11.2020
1.2 抽样误差与非抽样误差
统计调查的目的是取得能准确反映客观状况的统计数据。 在许多时候,调查结果并不能准确地表现事实,总会有误差 出现。在调查的各个阶段,误差都有可能出现。 如果其中一个阶段出现了较大误差,可能会把其他阶段都进 行得很好的一次调查毁掉,因此必须认真细致地实施调查的 每一个阶段、严格控制误差。 为了保证统计数据的质量,了解误差的来源与减小误差的措 施很有必要。
问题的措辞也可能造成误差 问题的措辞造成的误差是计量误差的一种。例3.3显示了由 于问题的措辞不同而造成的不同的调查结果。研究表明,问 卷的不同用词会造成被调查者不同的反应,从而造成调查误 差。我们来看几个措辞不当的问题。
10.11.2020
问:您住的地方到这里是多少时间的路程? 1、不超过10分钟 2、10~20分钟 3、20~30分钟 4、30分钟以上 用什么方式呢?步行?骑自行车?乘汽车?还是坐飞碟?
10.11.2020
实际的抽样调查是很复杂的,即使采用了好的随机抽样 方法、准确地计算了误差界限,调查结果也不一定可靠。 就拿例3.1来说,本来应该是对打架双方都进行调查,但 已经死去的被调查者无法回答,而剩下的被调查者又可 能为保全自己而不如实地回答。那么,这样的调查结果 会可靠吗?
下面,我们来看看抽样调查有些什么样的误差来源,以 及抽样调查者应如何与之奋斗。
数据、模型与决策
数据的产生与图表描述
一、 调查面面观 二、 实验面面观 三、 数据的图表描述
10.11.2020
一、 调查面面观
1.1 调查如何出错 1.2 抽样误差与非抽样误差 1.3 抽样设计 1.4 解读调查结论
10.11.2020
1.1 调查如何出错 例1.1 谁先动手? 有人调查研究酒吧里的打架致死事件,发现其中90
问: 您全家的月收入是多少? 1、低于2000元 2、2000~5000元 3、5000~8000元 4、8000~11000元 5、11000元以上 “全家”的定义是什么?“月收入”包括哪些?而且各 月收入不同怎么办?
10.11.2020
问:您是否赞成禁止私人拥有枪械以降低犯罪率? 1、很赞成 2、比较赞成 3、说不清 4、比较不赞成
%都是死掉的那个人先动手。真是这样吗? 如果你跟人打架把对方给揍死了,警察问你谁先动
手的时候你怎么回答?
10.11.2020
例1.2 美国的种族效应 1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位黑 人州长。这两个事件,在投票所访问投完票的选民后所预测到 的胜负差距,都比实际开票的差距大。 因此,调查机构相当确定,有些受访选民因为不愿承认没投票 给黑人候选人而说了谎。
心理研究表明,低收入和高收入的人倾向于不回答问卷, 因此中等收入的人在回答者中的比例过高。为此现代调查机构 更喜欢采用亲自询问来代替邮寄问卷
10.11.2020
即使亲自询问,也有不回答偏性的问题。 访问员来访时,不在家的人与在家接受访问的人可能在 工作时间、家庭关系和社会背景等方面有比较大的差异,从 而看法也不一样。 例如有一项关于快餐的市场调查。抽取500户家庭进行 调查。白天访问时,有150户家庭没人。能不能仅用白天有人 的350户家庭的数据?不能。这里有不回答偏性。白天不在家 的150户可能是吃快餐比较多的家庭。
那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人 的样本,预测罗斯福会以56%对44%的优势获胜。
实际结果是,罗斯福以62%对38%的优势胜出。当时有人说, 这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后, 盖洛普的调查机构得到迅速的发展,国内外闻名,而《文学 摘要》杂志不久就垮了。 《文学摘要》杂志的调查方法有什么问题?
10.11.2020
例1.3 权威人物的意见 有两个内容相同的问题: 问题A:陆军部和海军部应当合并为统一的作战部,您同意 么? 问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统 一的作战部,您同意么? 结果对问题A表示同意的比例为29%,而对问题B表示同意 的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔 将军的意见影响了被调查者的意见。
10.11.2020
误差按其性质可以分为两类,一类是抽样误差,它是由于抽 选样本的随机性而产生的误差。只有采用概率抽样的方式才 可能估计抽样误差。另一类是非抽样误差,它是指除抽样误 差以外的、由于各种原因而引起的误差。 在概率抽样、非概率抽样和全面调查中,非抽样误差都有可 能存在。 若采用了概率抽样方法,那么我们可以估计出抽样误差的大 小,还可以通过选择样本量的大小来控制抽样误差。在谨慎 执行的抽样调查中,抽样误差通常不大。而非抽样误差相对 比较难以估计和控制。
10.11.2020
Байду номын сангаас
例1.4 总统选举预测 1936年民主党人罗斯福任美国总统第一任满,共和党人兰登 与他竞选总统。
《文学摘要》杂志根据有约二百四十万人参加的民意测验, 预测兰登会以57%对43%的优势获胜。自1916年以来的五届 总统选举中,《文学摘要》杂志都正确地预测出获胜的一方, 其影响力很大。
10.11.2020
此外,《文学摘要》杂志调查的一千万人中只有二百四 十万人回答了问卷,不回答者可能非常有别于回答者,这二百 四十万人代表不了被邮寄问卷的一千万人。
譬如,1936年《文学摘要》杂志的一次专门的调查,给 在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了 回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加 哥的得票率只有三分之一。所以当出现高不回答率时,谨防不 回答偏性。
10.11.2020
继续例1.4 从常理来看,应该调查数据越多,结论越可靠。 罗斯福的实际得票率为62%,《文学摘要》杂志的预测为
43%,误差达到19%。误差之大令人惊异。这样大的误差是怎 么得来的呢?
经过研究发现,原因在于《文学摘要》杂志选取样本有 偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄 给一千万人。当时美国四个家庭中仅有一家装电话。他选取 的样本有排斥穷人的选择偏性。这样的民意测验非常不利于 民主党人罗斯福。
10.11.2020
1.2 抽样误差与非抽样误差
统计调查的目的是取得能准确反映客观状况的统计数据。 在许多时候,调查结果并不能准确地表现事实,总会有误差 出现。在调查的各个阶段,误差都有可能出现。 如果其中一个阶段出现了较大误差,可能会把其他阶段都进 行得很好的一次调查毁掉,因此必须认真细致地实施调查的 每一个阶段、严格控制误差。 为了保证统计数据的质量,了解误差的来源与减小误差的措 施很有必要。