《数理统计》教案——抽样分布

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

问题：假定在一段时间内，到达服务窗口的顾客数服从泊松
分布，那么，相继到达的两顾客的间隔时间服从什么分布？分析与推导：
如果在[0, t ]内到达服务窗口的顾客数N (t )服从参数为 t 的泊松分布 ( t ) k t 即 P N (t ) k e , k 0,1, 2,, k! 由于 EN (t ) t，故表示平均单位时间到达的顾客人数。
定额抽样法要求调查设计人员有丰富的经验知识以及相应的统计资料。若对某地区的各指标的分布情况未能作出全面正确的判断，则样本就不能很好地代表总体。定额抽样法要求访问员能正确判断访问对象是否符合要求？倘若有两个或更多的人都符合要求，则访问员就得考虑，究竟访问谁？由此可见，正确有效地实施定额抽样法离不开人的主观判断与选择。主观判断与选择有可能出错。 1948年的美国总统选举——三家民意调查机构全都错了
例：航空客机配餐问题：根据统计资料，有60%的飞机乘客要求提供米饭。一个航班有300位乘客，如果要以至少95%的把握保证，想吃米饭的乘客能得到米饭，航班需准备多少份米饭？利用Excel或其它软件，可轻松得到解决。
泊松定理
当 n 较大，p 较小，但乘积np 大小适中时，二项分布诸概率有很好的近似公式：对任意的非负整数 k ， lim C p (1 p)
记为： X ~ b(n, p) b(n, p) 的均值 EX np ; b(n, p) 的方差 DX np(1 p) Excel函数命令：输入“=binomdist(k,n,p,0)”则得二项分布的概率P(X=k); 输入“=binomdist(k,n,p,1)”则得二项分布的(左)累积概率P(X≤k) 输入“=1-binomdist(k-1,n,p,1)”则得二项分布的(右)累积概率 P(X≥k)。
6、数理统计（统计推断）方法的特点： 1）应用面广，分支较多。社会的发展不断向统计提出新的问题。 2）计算机的发展，为数据处理提供了强有力的技术支持，数理统计与计算机的结合是必然的发展趋势。 3）方法的使用不需要高深的数学知识，但不具备一定的数学知识，无法理解这些方法。
7、关于本课程 1）由于学时所限，课程的重点在于介绍数理统计中的一些重要概念及典型的统计方法，他们是实际中最常用的知识。 2）学统计无需把过多的时间花在计算上，而应该用在对基本概念、方法原理的正确理解上。一些常用统计软件包 SAS 、 R 、 SPSS 、MATLAB 、 EXCEL可帮你快速、简便地进行数据的处理和分析。
2）康泰克为什么可以重来
因含有 PPA，2000 年 11 月起康泰克被停止销售。中美史克直接经济损失 6 亿元人民币。康泰克原来在国内感冒药市场约占六成。 11 年共销售了 50 亿粒康泰克。事隔 9 个月，2001 年 8 月，不含 PPA，代之以 PSE(盐酸伪麻黄钙)，同时保留扑尔敏成分的新康泰克上市。为什么中美史克敢于耗资 1.45 亿元上马新康泰克欲重登国内感冒药市场冠军宝座，这和它们前期所做的市场调查有关。
2. 二项分布（ The Binomial Distribution ） 1）每一次试验只有两个结果：成功和失败； 2）共有n次试验； 3）任意一次试验成功的概率都为p
记 X 表示 n 次试验中成功的次数，则X 的分布律是
k k P X k Cn p (1 p)n k , k 0,1, 2,, n (0 p 1)
汇总
凶手被害人
分开考虑
白人白人黑人白人黑人黑人
死刑判决凶手死刑判决的比例是否 19 132 0.126 0 9 0 11 52 0.175 6 97 0.058
法官判刑时没有明显的种族歧视！辛普森悖论两组数据，分开讨论与合并考虑却导致不一样的结论！
收集到高质量的数据比分析更为重要！《大不列颠百科全书》——数理统计是收集分析数据的科学与艺术。

Hale Waihona Puke 指数分布可描述： ▄某服务窗口，相继到达的两顾客的间隔时间； ▄在电路中，电子元件的寿命。指数分布的无记忆性：
如果 X ~Exp( ) ，则对任意的 s 0, t 0, 有 P( X s t X s ) P( X t )
知识回顾——常用的随机变量分布 1.（0—1）分布 X ~ b(1, p)
随机变量 X 只取0与1两个值，分布律是 P X k p k (1 p)1-k , k 0,1 (0 p 1)
X
pk
0
1 p
1
p
该分布可以用来描述许多随机试验的结果，如产品的质量状况、设备的工作状态、被保险人在保险期内的出险与否。
市场调查的两个问题： 1) 康泰克的认知度多大？ 2) 如果康泰克重回市场，不含 PPA 的新康泰克被接受的可能性有多大？经调查： 1) 康泰克的认知度为 89.6%。 2) 如果康泰克重回市场，不含 PPA 的新康泰克被接受的可能性有 90%。
3）数据分析中的辛普森悖论 1976-1977年美国弗罗里达州凶杀案件中 326个凶手的肤色与是否被判死刑情况如下：死刑判决凶手凶手死刑判决的比例是否白人 19 141 0.119 黑人 17 149 0.102 法官判刑时没有种族歧视？
1936年有余钱订阅杂志，有能力装置电话（当时四个家庭中仅有一家装电话），购买汽车的人，他们是经济比较富裕，收入在一般水平之上的人员。《文学摘要》杂志有排挤穷人的选择偏差。《文学摘要》杂志选取调查对象的方法有误。尽管他的调查数据非常多，但有偏差。他选取的样本不能代表总体。《文学摘要》杂志的调查对象选择了共和党人兰登，而全体选民却选择了民主党人罗斯福。
为什么一而再，再而三，连续多次都过高预测共和党的总统候选人的得票率，过低预测民主党的总统候选人的得票率？连续出错，应引起人们的深思！

盖洛普给了访问员一个权利，访问谁可由访问员自行选定。设想某个访问员被派到某个街区，要求他访问一个白人，年龄40岁以上，城市居民。设想他遇到两个符合调查要求的白人，一个穿着整洁，说话有礼，看似正派，而另一个穿着比较肮脏，说话粗声粗气。为顺利完成访问任务，访问员很自然地去接近前者。而前者很可能是个共和党的选民。共和党的选民往往较为富裕，受过较好的教育，住在较好的街区，他们乐意接受访问。这样一来定额抽样法就使得访问员不知不觉地访问了过多的共和党的选民。

1952年起，盖洛普公司在选举中放弃定额抽样调查方法，改用随机抽样调查方法。随机抽样调查方法让所有接受调查的人都受到公平的对待。最简单抽样调查方法 — 抽签。
1952至1980年美国总统选举盖洛普民意测验的预测情况样本盖洛普实际年份容量当选总统预测得票误差 1952 5385 51% 55.4% -4.4% 艾森豪威尔 1956 8144 59.5% 57.8% +1.7% 艾森豪威尔 1960 8015 51% 50.1% +0.9% 肯尼迪 1964 6625 64% 61.3% +2.7% 约翰逊 1968 4414 43% 43.5% -0.5% 尼克松 1972 3689 62% 61.8% +0.2% 尼克松 1976 3439 48.0% 50.1% -2.1% 卡特 1980 3500 47.0% 50.8% -3.8 里根
k
e , k 0,1, 2,,
P( ) 的均值与方差相同，即EX DX
泊松分布是一种常见的离散分布，通常与单位时间（或单位面积、单位产品等）上的计数过程有关，譬如： ▄在单位时间内，电话总机收到的呼叫次数； ▄在单位时间内，一电路收到外界电磁波的冲击次数； ▄在一段时间内，到达服务窗口的顾客数； ▄1平方米内，玻璃上的气泡数； ▄一铸件上的砂眼数.
记 T 表示相继到达的两顾客的间隔时间，其分布函数有当 t 0 时，FT (t ) P(T t ) 0 ; 当 t 0 时，FT (t ) P(T t ) 1 P(T t ) 1 P( N (t ) 0) 1 e t
T 的概率密度为 e t fT (t ) 0 t0 t0
数理统计
任课教师：李正耀
第2章统计概念
第一节绪论 1、什么是数理统计？数理统计是研究怎样用有效的方法去收集、整理、分析和使用受随机影响的数据的学科。 2、研究对象：受随机影响的数据。 3、数据随机性来源： 1）抽样的随机性。2）试验中的误差
4、数理统计的研究内容： 1）用有效的方法收集数据——抽样理论与试验设计。 2）有效地使用数据——统计推断（本课程主要内容）。 5、几个实际例子 1）1936年美国总统选举的民意调查

尽管盖洛普的样本只有五万人，但他的样本能比较好地代表总体。盖洛普用的是“定额抽样法” 。所谓定额抽样法可简单地用下面的例子加以说明。若某地区有 40 万选民，其中黑人与白人选民分别有 15% 与 85%。若计划在该地区调查 20 个选民，则定额抽样法就要求调查员访问的20个选民中有3个黑人选民与17个白人选民。调查对象的性别、收入高低、年龄等有类似的要求。

1936年民主党人罗斯福任美国总统第一任满。共和党人兰登与他竞争总统。《文学摘要》杂志根据有约二百四十万人参加的民意测验，预测：兰登的得票率：57% 罗斯福的得票率：43% 样本：240万

1936年盖洛普刚刚设立起他的调查机构，他根据一个约五万人的样本，预测：兰登得票率：44% 罗斯福得票率：56% 样本：5万人结果是：罗斯福当选总统，其得票率为62%。当时美国媒体认为，与其说罗斯福赢了，不如说盖洛普赢了。罗斯福的得票率误差 -------------------------------------------------文学摘要(样本240万)预测 43% 19% 盖洛普(样本5万)预测 56% 6% -------------------------------------------------调查方法有什么问题？《文学摘要》杂志仅向该杂志订户，以及诸如根据电话簿向家中有电话的人员，以及根据汽车拥有者名册向家中有汽车的人员发放问卷作调查。

盖洛普候选人杜鲁门(民主党) 杜威(共和党) Thurmond Wallace 预测 44 50 2 4 克劳斯莱预测 45 50 2 3 罗伯尔预测 38 53 5 4 实际选举结果 50 45 3 2
杜鲁门(民主党)：预测得票率 < 实际选举结果；杜威(共和党)：预测得票率 > 实际选举结果。
4. 指数分布（ The Exponential Distribution ）
如果随机变量 X 有概率密度 e x x 0 f ( x) x0 0 则称 X 服从参数为的指数分布，记为 X ~Exp( ) 1 1 指数分布的数字特征有： EX ， DX = 2
1948年美国总统竞选。除民意调查机构，当时的美国媒体一边倒地认为杜鲁门必败。美国知名的50位政治评论家都认定，此次大选杜威获胜无疑。大选日当晚，《芝加哥论坛报》抢先印刷了印有“杜威击败杜鲁门”通栏标题的号外，向全国发行。杜鲁门获胜后，得意洋洋地手举印有“杜威击败杜鲁门” 大幅通栏标题的《芝加哥论坛报》返回华盛顿。这张照片悬挂在《芝加哥论坛报》的主编办公室里，每一任主编都看着这张让报纸蒙受耻辱的照片而工作。
n k n k nk

k e
k!
注意到：

k 0

k e
k!
1
该实数序列可构成一分布列
3. 泊松分布（ The Poisson Distribution ）
若随机变量 X 的概率分布列是 k! 则称 X 服从参数为的泊松分布，记为 X ~ P( ) P X k