《数理统计》教案——抽样分布

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

盖洛普 候选人 杜鲁门(民主党) 杜威(共和党) Thurmond Wallace 预测 44 50 2 4 克劳斯莱 预测 45 50 2 3 罗伯尔 预测 38 53 5 4 实际选举 结果 50 45 3 2
杜鲁门(民主党):预测得票率 < 实际选举结果; 杜威(共和党):预测得票率 > 实际选举结果。
6、数理统计(统计推断)方法的特点: 1)应用面广,分支较多。社会的发展不断向统计提出 新的问题。 2)计算机的发展,为数据处理提供了强有力的技术支 持,数理统计与计算机的结合是必然的发展趋势。 3)方法的使用不需要高深的数学知识,但不具备一定 的数学知识,无法理解这些方法。
7、关于本课程 1) 由于学时所限,课程的重点在于介绍数理统计中的一 些重要概念及典型的统计方法,他们是实际中最常用的知识。 2)学统计无需把过多的时间花在计算上,而应该用在对 基本概念、方法原理的正确理解上。一些常用统计软件包 SAS 、 R 、 SPSS 、MATLAB 、 EXCEL可帮你快速、简便 地进行数据的处理和分析。
数理统计
任课教师:李正耀
第2章 统计概念
第一节 绪论 1、什么是数理统计? 数理统计是研究怎样用有效的方法去收集、整理、分 析和使用受随机影响的数据的学科。 2、研究对象:受随机影响的数据。 3、数据随机性来源: 1)抽样的随机性。2)试验中的误差
4、数理统计的研究内容: 1)用有效的方法收集数据——抽样理论与试验设计。 2)有效地使用数据——统计推断(本课程主要内容)。 5、几个实际例子 1)1936年美国总统选举的民意调查
记为: X ~ b(n, p) b(n, p) 的均值 EX np ; b(n, p) 的方差 DX np(1 p) Excel函数命令: 输入“=binomdist(k,n,p,0)”则得二项分布的概率P(X=k); 输入“=binomdist(k,n,p,1)”则得二项分布的(左)累积概率P(X≤k) 输入“=1-binomdist(k-1,n,p,1)”则得二项分布的(右)累积概率 P(X≥k)。
k
e , k 0,1, 2,,
P( ) 的均值与方差相同,即EX DX
泊松分布是一种常见的离散分布,通常与单位时间(或 单位面积、单位产品等)上的计数过程有关,譬如: ▄在单位时间内,电话总机收到的呼叫次数; ▄在单位时间内,一电路收到外界电磁波的冲击次数; ▄在一段时间内,到达服务窗口的顾客数; ▄1平方米内,玻璃上的气泡数; ▄一铸件上的砂眼数.

尽管盖洛普的样本只有五万人,但他的样本能比较好地代表 总体。盖洛普用的是“定额抽样法” 。 所谓定额抽样法可简单地用下面的例子加以说明。若某地区 有 40 万选民,其中黑人与白人选民分别有 15% 与 85%。若计 划在该地区调查 20 个选民,则定额抽样法就要求调查员访问 的20个选民中有3个黑人选民与17个白人选民。调查对象的性 别、收入高低、年龄等有类似的要求。
n k n k nk

k e
k!
注意到:

k 0

k e
k!
1
该实数序列可构成一分布列
3. 泊松分布( The Poisson Distribution )
若随机变量 X 的概率分布列是 k! 则称 X 服从参数为的泊松分布,记为 X ~ P( ) P X k



1936年民主党人罗斯福任美国总统第一任满。共和党 人兰登与他竞争总统。《文学摘要》杂志根据有约二百 四十万人参加的民意测验,预测: 兰登的得票率:57% 罗斯福的得票率:43% 样本:240万

1936年盖洛普刚刚设立起他的调查机构,他根据一个约五 万人的样本,预测: 兰登得票率:44% 罗斯福得票率:56% 样本:5万人 结果是:罗斯福当选总统,其得票率为62%。当时美 国媒体认为,与其说罗斯福赢了,不如说盖洛普赢了。 罗斯福的得票率 误差 -------------------------------------------------文学摘要(样本240万)预测 43% 19% 盖洛普(样本5万)预测 56% 6% -------------------------------------------------调查方法有什么问题? 《文学摘要》杂志仅向该杂志订户,以及诸如根据电话簿 向家中有电话的人员,以及根据汽车拥有者名册向家中有 汽车的人员发放问卷作调查。


指数分布可描述: ▄某服务窗口,相继到达的两顾客的间隔时间; ▄在电路中,电子元件的寿命。 指数分布的无记忆性:
如果 X ~Exp( ) ,则对任意的 s 0, t 0, 有 P( X s t X s ) P( X t )
2)康泰克为什么可以重来
因含有 PPA,2000 年 11 月起康泰克被停止 销售。中美史克直接经济损失 6 亿元人民币。 康泰克原来在国内感冒药市场约占六成。 11 年共销售了 50 亿粒康泰克。 事隔 9 个月,2001 年 8 月,不含 PPA,代之 以 PSE(盐酸伪麻黄钙), 同时保留扑尔敏成分 的新康泰克上市。为什么中美史克敢于耗资 1.45 亿元上马新康泰克欲重登国内感冒药市 场冠军宝座,这和它们前期所做的市场调查 有关。
例:航空客机配餐问题:根据统计资料,有60%的飞机乘客 要求提供米饭。一个航班有300位乘客,如果要以至少95%的 把握保证,想吃米饭的乘客能得到米饭,航班需准备多少份 米饭? 利用Excel或其它软件,可轻松得到解决。
泊松定理
当 n 较大,p 较小,但乘积np 大小适中时,二项分 布诸概率有很好的近似公式:对任意的非负整数 k , lim C p (1 p)
1936年有余钱订阅杂志,有能力装置电话(当时四个家庭中 仅有一家装电话),购买汽车的人,他们是经济比较富裕, 收入在一般水平之上的人员。《文学摘要》杂志有排挤穷人 的选择偏差。 《文学摘要》杂志选取调查对象的方法有误。尽管他的调 查数据非常多,但有偏差。他选取的样本不能代表总体。 《文学摘要》杂志的调查对象选择了共和党人兰登,而全 体选民却选择了民主党人罗斯福。
问题:假定在一段时间内,到达服务窗口的顾客数服从泊松
分布,那么,相继到达的两顾客的间隔时间服从什么分布? 分析与推导:
如果在[0, t ]内到达服务窗口的顾客数N (t )服从参数为 t 的泊松分布 ( t ) k t 即 P N (t ) k e , k 0,1, 2,, k! 由于 EN (t ) t,故 表示平均单位时间到达的顾客人数。
记 T 表示相继到达的两顾客的间隔时间,其分布函数有 当 t 0 时,FT (t ) P(T t ) 0 ; 当 t 0 时,FT (t ) P(T t ) 1 P(T t ) 1 P( N (t ) 0) 1 e t
T 的概率密度为 e t fT (t ) 0 t0 t0
2. 二项分布( The Binomial Distribution ) 1)每一次试验只有两个结果:成功和失败; 2)共有n次试验; 3)任意一次试验成功的概率都为p
记 X 表示 n 次试验中成功的次数,则X 的分布律是
k k P X k Cn p (1 p)n k , k 0,1, 2,, n (0 p 1)
4. 指数分布( The Exponential Distribution )
如果随机变量 X 有概率密度 e x x 0 f ( x) x0 0 则称 X 服从参数为 的指数分布,记为 X ~Exp( ) 1 1 指数分布的数字特征有: EX , DX = 2
知识回顾——常用的随机变量分布 1.(0—1)分布 X ~ b(1, p)
随机变量 X 只取0与1两个值,分布律是 P X k p k (1 p)1-k , k 0,1 (0 p 1)
X
pk
0
1 p
1
p
该分布可以用来描述许多随机试验的结果,如 产品的质量状况、设备的工作状态、被保险人在 保险期内的出险与否。
1948年美国总统竞选。除民意调查机构,当时的美国媒体一边 倒地认为杜鲁门必败。美国知名的50位政治评论家都认定,此 次大选杜威获胜无疑。大选日当晚,《芝加哥论坛报》抢先印 刷了印有“杜威击败杜鲁门”通栏标题的号外,向全国发行。 杜鲁门获胜后,得意洋洋地 手举印有“杜威击败杜鲁门” 大幅通栏标题的《芝加哥论坛 报》返回华盛顿。这张照片悬 挂在《芝加哥论坛报》的主编 办公室里,每一任主编都看着 这张让报纸蒙受耻辱的照片而 工作。
Baidu Nhomakorabea
定额抽样法要求调查设计人员有丰富的经验知识以及相应的 统计资料。若对某地区的各指标的分布情况未能作出全面正 确的判断,则样本就不能很好地代表总体。 定额抽样法要求访问员能正确判断访问对象是否符合要求? 倘若有两个或更多的人都符合要求,则访问员就得考虑,究 竟访问谁?由此可见,正确有效地实施定额抽样法离不开人 的主观判断与选择。主观判断与选择有可能出错。 1948年的美国总统选举——三家民意调查机构全都错了
为什么一而再,再而三,连续多次都过高预测共和党的总 统候选人的得票率,过低预测民主党的总统候选人的得票率 ? 连续出错,应引起人们的深思!



盖洛普给了访问员一个权利,访问谁可由访问员自行选定。 设想某个访问员被派到某个街区,要求他访问一个白人, 年龄40岁以上,城市居民。设想他遇到两个符合调查要求 的白人,一个穿着整洁,说话有礼,看似正派,而另一个 穿着比较肮脏,说话粗声粗气。为顺利完成访问任务,访 问员很自然地去接近前者。而前者很可能是个共和党的选 民。 共和党的选民往往较为富裕,受过较好的教育,住在较好 的街区,他们乐意接受访问。这样一来定额抽样法就使得 访问员不知不觉地访问了过多的共和党的选民。

1952年起,盖洛普公司在选举中放弃定额抽样调查方法, 改用随机抽样调查方法。 随机抽样调查方法让所有接受调查的人都受到公平的对待。 最简单抽样调查方法 — 抽签。
1952至1980年美国总统选举盖洛普民意测验的预测情况 样本 盖洛普 实际 年份 容量 当选总统 预测 得票 误差 1952 5385 51% 55.4% -4.4% 艾森豪威尔 1956 8144 59.5% 57.8% +1.7% 艾森豪威尔 1960 8015 51% 50.1% +0.9% 肯尼迪 1964 6625 64% 61.3% +2.7% 约翰逊 1968 4414 43% 43.5% -0.5% 尼克松 1972 3689 62% 61.8% +0.2% 尼克松 1976 3439 48.0% 50.1% -2.1% 卡特 1980 3500 47.0% 50.8% -3.8 里根
汇总
凶手 被害人
分开考虑
白人 白人 黑人 白人 黑人 黑人
死刑判决 凶手死刑判决的比例 是 否 19 132 0.126 0 9 0 11 52 0.175 6 97 0.058
法官判刑时没有明显的种族歧视! 辛普森 悖论 两组数据,分开讨论与合并考虑却导致不 一样的结论!
收集到高质量的数据比分析更为重要! 《大不列颠百科全书》——数理统计是收集分析数据的科 学与艺术。
市场调查的两个问题: 1) 康泰克的认知度多大? 2) 如果康泰克重回市场,不含 PPA 的新康 泰克被接受的可能性有多大? 经调查: 1) 康泰克的认知度为 89.6%。 2) 如果康泰克重回市场,不含 PPA 的新康 泰克被接受的可能性有 90%。
3)数据分析中的辛普森悖论 1976-1977年美国弗罗里达州凶杀案件中 326个凶手的肤色与是否被判死刑情况如下: 死刑判决 凶手 凶手死刑判决的比例 是 否 白人 19 141 0.119 黑人 17 149 0.102 法官判刑时没有种族歧视?
相关文档
最新文档