数据模型与决策.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11.12.2020
实际的抽样调查是很复杂的,即使采用了好的随机抽样 方法、准确地计算了误差界限,调查结果也不一定可靠。 就拿例3.1来说,本来应该是对打架双方都进行调查,但 已经死去的被调查者无法回答,而剩下的被调查者又可 能为保全自己而不如实地回答。那么,这样的调查结果 会可靠吗?
下面,我们来看看抽样调查有些什么样的误差来源,以 及抽样调查者应如何与之奋斗。
11.12.2020
继续例1.4 从常理来看,应该调查数据越多,结论越可靠。 罗斯福的实际得票率为62%,《文学摘要》杂志的预测为
43%,误差达到19%。误差之大令人惊异。这样大的误差是怎 么得来的呢?
经过研究发现,原因在于《文学摘要》杂志选取样本有 偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄 给一千万人。当时美国四个家庭中仅有一家装电话。他选取 的样本有排斥穷人的选择偏性。这样的民意测验非常不利于 民主党人罗斯福。
11.12.2020
误差按其性质可以分为两类,一类是抽样误差,它是由于抽 选样本的随机性而产生的误差。只有采用概率抽样的方式才 可能估计抽样误差。另一类是非抽样误差,它是指除抽样误 差以外的、由于各种原因而引起的误差。 在概率抽样、非概率抽样和全面调查中,非抽样误差都有可 能存在。 若采用了概率抽样方法,那么我们可以估计出抽样误差的大 小,还可以通过选择样本量的大小来控制抽样误差。在谨慎 执行的抽样调查中,抽样误差通常不大。而非抽样误差相对 比较难以估计和控制。
那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人 的样本,预测罗斯福会以56%对44%的优势获胜。
实际结果是,罗斯福以62%对38%的优势胜出。当时有人说, 这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后, 盖洛普的调查机构得到迅速的发展,国内外闻名,而《文学 摘要》杂志不久就垮了。 《文学摘要》杂志的调查方法有什么问题?
11.12.2020
例1.3 权威人物的意见 有两个内容相同的问题: 问题A:陆军部和海军部应当合并为统一的作战部,您同意 么? 问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统 一的作战部,您同意么? 结果对问题A表示同意的比例为29%,而对问题B表示同意 的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔 将军的意见影响了被调查者的意见。
11.12.2020
问题的措辞也可能造成误差 问题的措辞造成的误差是计量误差的一种。例3.3显示了由 于问题的措辞不同而造成的不同的调查结果。研究表明,问 卷的不同用词会造成被调查者不同的反应,从而造成调查误 差。我们来看几个措辞不当的问题。
11.12.2020
问:您住的地方到这里是多少时间的路程? 1、不超过10分钟 2、10~20分钟 3、20~30分钟 4、30分钟以上 用什么方式呢?步行?骑自行车?乘汽车?还是坐飞碟?
%都是死掉的那个人先动手。真是这样吗? 如果你跟人打架把对方给揍死了,警察问你谁先动
手的时候你怎么回答?
11.12.2020
例1.2 美国的种族效应 1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位黑 人州长。这两个事件,在投票所访问投完票的选民后所预测到 的胜负差距,都比实际开票的差距大。 因此,调查机构相当确定,有些受访选民因为不愿承认没投票 给黑人候选人而说了谎。
问: 您全家的月收入是多少? 1、低于2000元 2、2000~5000元 3、5000~8000元 4、8000~11000元 5、11000元以上 “全家”的定义是什么?“月收入”包括哪些?而且各 月收入不同怎么办?
11.12.2020
问:您是否赞成禁止私人拥有枪械以降低犯罪率? 1、很赞成 2、比较赞成 3、说不清 4、比较不赞成
11.12.2020
例1.4 总统选举预测 1936年民主党人罗斯福任美国总统第一任满,共和党人兰登 与他竞选总统。
《文学摘要》杂志根据有约二百四十万人参加的民意测验, 预测兰登会以57%对43%的优势获胜。自1916年以来的五届 总统选举中,《文学摘要》杂志都正确地预测出获胜的一方, 其影响力很大。
数据、模型与决策
数据的产生与图表描述
一、 调查面面观 二、 实验面面观 三、 数据的图表描述
11.12.2020
一、 调查面面观
1.1 调查如何出错 1.2 抽样误差与非抽样误差 1.3 抽样设计 1.4 解读调查结论
11.12.2020
1.1 调查如何出错 例1.1 谁先动手? 有人调查研究酒吧里的打架致死事件,发现其中90
心理研究表明,低收入和高收入的人倾向于不回答问卷, 因此中等收入的人在回答者中的比例过高。为此现代调查机构 更喜欢采用亲自询问来代替邮寄问卷
11.12.2020
即使亲自询问,也有不回答偏性的问题。 访问员来访时,不在家的人与在家接受访问的人可能在 工作时间、家庭关系和社会背景等方面有比较大的差异,从 而看法也不一样。 例如有一项关于快餐的市场调查。抽取500户家庭进行 调查。白天访问时,有150户家庭没人。能不能仅用白天有人 的350户家庭的数据?不能。这里有不回答偏性。白天不在家 的150户可能是吃快餐比较多的家庭。
11.12.2020
பைடு நூலகம்
此外,《文学摘要》杂志调查的一千万人中只有二百四 十万人回答了问卷,不回答者可能非常有别于回答者,这二百 四十万人代表不了被邮寄问卷的一千万人。
譬如,1936年《文学摘要》杂志的一次专门的调查,给 在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了 回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加 哥的得票率只有三分之一。所以当出现高不回答率时,谨防不 回答偏性。
11.12.2020
1.2 抽样误差与非抽样误差
统计调查的目的是取得能准确反映客观状况的统计数据。 在许多时候,调查结果并不能准确地表现事实,总会有误差 出现。在调查的各个阶段,误差都有可能出现。 如果其中一个阶段出现了较大误差,可能会把其他阶段都进 行得很好的一次调查毁掉,因此必须认真细致地实施调查的 每一个阶段、严格控制误差。 为了保证统计数据的质量,了解误差的来源与减小误差的措 施很有必要。
实际的抽样调查是很复杂的,即使采用了好的随机抽样 方法、准确地计算了误差界限,调查结果也不一定可靠。 就拿例3.1来说,本来应该是对打架双方都进行调查,但 已经死去的被调查者无法回答,而剩下的被调查者又可 能为保全自己而不如实地回答。那么,这样的调查结果 会可靠吗?
下面,我们来看看抽样调查有些什么样的误差来源,以 及抽样调查者应如何与之奋斗。
11.12.2020
继续例1.4 从常理来看,应该调查数据越多,结论越可靠。 罗斯福的实际得票率为62%,《文学摘要》杂志的预测为
43%,误差达到19%。误差之大令人惊异。这样大的误差是怎 么得来的呢?
经过研究发现,原因在于《文学摘要》杂志选取样本有 偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄 给一千万人。当时美国四个家庭中仅有一家装电话。他选取 的样本有排斥穷人的选择偏性。这样的民意测验非常不利于 民主党人罗斯福。
11.12.2020
误差按其性质可以分为两类,一类是抽样误差,它是由于抽 选样本的随机性而产生的误差。只有采用概率抽样的方式才 可能估计抽样误差。另一类是非抽样误差,它是指除抽样误 差以外的、由于各种原因而引起的误差。 在概率抽样、非概率抽样和全面调查中,非抽样误差都有可 能存在。 若采用了概率抽样方法,那么我们可以估计出抽样误差的大 小,还可以通过选择样本量的大小来控制抽样误差。在谨慎 执行的抽样调查中,抽样误差通常不大。而非抽样误差相对 比较难以估计和控制。
那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人 的样本,预测罗斯福会以56%对44%的优势获胜。
实际结果是,罗斯福以62%对38%的优势胜出。当时有人说, 这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后, 盖洛普的调查机构得到迅速的发展,国内外闻名,而《文学 摘要》杂志不久就垮了。 《文学摘要》杂志的调查方法有什么问题?
11.12.2020
例1.3 权威人物的意见 有两个内容相同的问题: 问题A:陆军部和海军部应当合并为统一的作战部,您同意 么? 问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统 一的作战部,您同意么? 结果对问题A表示同意的比例为29%,而对问题B表示同意 的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔 将军的意见影响了被调查者的意见。
11.12.2020
问题的措辞也可能造成误差 问题的措辞造成的误差是计量误差的一种。例3.3显示了由 于问题的措辞不同而造成的不同的调查结果。研究表明,问 卷的不同用词会造成被调查者不同的反应,从而造成调查误 差。我们来看几个措辞不当的问题。
11.12.2020
问:您住的地方到这里是多少时间的路程? 1、不超过10分钟 2、10~20分钟 3、20~30分钟 4、30分钟以上 用什么方式呢?步行?骑自行车?乘汽车?还是坐飞碟?
%都是死掉的那个人先动手。真是这样吗? 如果你跟人打架把对方给揍死了,警察问你谁先动
手的时候你怎么回答?
11.12.2020
例1.2 美国的种族效应 1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位黑 人州长。这两个事件,在投票所访问投完票的选民后所预测到 的胜负差距,都比实际开票的差距大。 因此,调查机构相当确定,有些受访选民因为不愿承认没投票 给黑人候选人而说了谎。
问: 您全家的月收入是多少? 1、低于2000元 2、2000~5000元 3、5000~8000元 4、8000~11000元 5、11000元以上 “全家”的定义是什么?“月收入”包括哪些?而且各 月收入不同怎么办?
11.12.2020
问:您是否赞成禁止私人拥有枪械以降低犯罪率? 1、很赞成 2、比较赞成 3、说不清 4、比较不赞成
11.12.2020
例1.4 总统选举预测 1936年民主党人罗斯福任美国总统第一任满,共和党人兰登 与他竞选总统。
《文学摘要》杂志根据有约二百四十万人参加的民意测验, 预测兰登会以57%对43%的优势获胜。自1916年以来的五届 总统选举中,《文学摘要》杂志都正确地预测出获胜的一方, 其影响力很大。
数据、模型与决策
数据的产生与图表描述
一、 调查面面观 二、 实验面面观 三、 数据的图表描述
11.12.2020
一、 调查面面观
1.1 调查如何出错 1.2 抽样误差与非抽样误差 1.3 抽样设计 1.4 解读调查结论
11.12.2020
1.1 调查如何出错 例1.1 谁先动手? 有人调查研究酒吧里的打架致死事件,发现其中90
心理研究表明,低收入和高收入的人倾向于不回答问卷, 因此中等收入的人在回答者中的比例过高。为此现代调查机构 更喜欢采用亲自询问来代替邮寄问卷
11.12.2020
即使亲自询问,也有不回答偏性的问题。 访问员来访时,不在家的人与在家接受访问的人可能在 工作时间、家庭关系和社会背景等方面有比较大的差异,从 而看法也不一样。 例如有一项关于快餐的市场调查。抽取500户家庭进行 调查。白天访问时,有150户家庭没人。能不能仅用白天有人 的350户家庭的数据?不能。这里有不回答偏性。白天不在家 的150户可能是吃快餐比较多的家庭。
11.12.2020
பைடு நூலகம்
此外,《文学摘要》杂志调查的一千万人中只有二百四 十万人回答了问卷,不回答者可能非常有别于回答者,这二百 四十万人代表不了被邮寄问卷的一千万人。
譬如,1936年《文学摘要》杂志的一次专门的调查,给 在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了 回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加 哥的得票率只有三分之一。所以当出现高不回答率时,谨防不 回答偏性。
11.12.2020
1.2 抽样误差与非抽样误差
统计调查的目的是取得能准确反映客观状况的统计数据。 在许多时候,调查结果并不能准确地表现事实,总会有误差 出现。在调查的各个阶段,误差都有可能出现。 如果其中一个阶段出现了较大误差,可能会把其他阶段都进 行得很好的一次调查毁掉,因此必须认真细致地实施调查的 每一个阶段、严格控制误差。 为了保证统计数据的质量,了解误差的来源与减小误差的措 施很有必要。