统计学概念和方法第6

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

•6.2点估计 • 点估计是一个用来估计总体参数的数。 • 例如 假设你要研究平均一个大学生月消费 情况,得到的结果有以下两种:“700元” 或者“620元到800元之间”。这两种结果 代表了估计总体参数的两种不同方式。最 简单的是点估计,像“700元”这个结果就 是一个点估计了。 “620元到800元之间” 是一个区间估计。 • 常用的点估计方法有矩估计、极大似然估 计等。
•6.1样本统计量和总体参数
• 在统计中,我们把所研究对象的全体元素组成的集合称为 母体或总体。母体中每一个元素称为个体。 • 总体依其 包含的个体总数分为有限总体和无限总体。 • 总体中抽取出来的一部分个体的集合称为子样或者样本。 • 统计量就是根据分布或数据计算出来的一个量。 • 常用的样本统计量是样本均值、样本百分比P和样本标准 差s。通常用英文字母标记样本统计量。 • 总体参数通常包括总体均值μ、总体百分比Π和总体标准 差σ。通常用希腊字母标记总体样本量。
• 这里t*=t0.025(48)=2.01
影响置信区间的因素
• 方法1:先找到被缴获坦克编号的平均值,并认为 这个值是全部编号的重点。因此样本均值乘以2就 是总数的一个估计。这种估计N的缺点是不能保证 均值的2倍一定大于记录中的最大编号。 • 方法2:用观测到的最大编号乘以因子1+1/n,其中 n是被缴获坦克个数。例如,假设俘获了10辆坦克, 其中最大编号是50,那么坦克总数的一个估计是 (1+1/10)×50=55。这种方法的确用于二战中。从 战后发现的德军记录看,盟军的估计值非常接近所 生产的坦克的真实值。
例 德军有多少坦克? • 第二次世界大战期间,盟军非常想知道德军总共制 造了多少辆坦克。德军制造坦克时是墨守成规的, 他们把坦克从1开始进行了连续的编号。战争中, 盟军缴获了一些敌军坦克,并记录了它们的生产编 号。那么,怎样用这些坦克编号来估计坦克总数呢? • 这里,总体参数是未知的生产出的坦克总数N,而 缴获的坦克编号是样本。
• 由于一个来自样本的特别的估计量绝不会精确地 等于总体参数的真值,所以问某一个值是否为好 的估计值是没有意义的,而可以问的是计算估计 值的方法是不是一个好方法。 • 一个好的估计方法可以这样被定义:如果在无数 个样本上应用该估计方法,得到的样本统计量估 计值的均值等于总体参数的均值(无偏估计)。 • 一般说来,样本均值是总体均值的一个好的估计 (无偏估计),比用样本中位数估计总体均值要 好。
统计推断
• 总体是由总体分布来刻画的。在实际问题中,我 们需要通过样本来估计总体分布的类型和参数。 这就是所谓统计推断研究的问题。 • 统计推断包括参数估计和假设检验。 • 例如,假设某城市人均年收入服从正态分布 N(μ,σ2),但参数μ,σ2的具体取值并不知道,需要通 过样本来估计。 • 根据样本来估计总体分布所包含的未知参数,称 为参数估计。 • 参数估计的两种形式:点估计和区间估计。
• 想一想,这个例子中,对战争、坦克的部署及俘获作了哪 些假设? • 这些坦克必须随机地分布于各个战场并随机地被俘获。
6.3区间估计
• 由于无法把握点估计与总体参数实际值之间的差距,为了 解决这个问题,统计学家提出了区间估计。 • 区间估计又称置信区间,是用来估计参数的取值范围的。 • 一个总体参数的置信区间是用一个样本统计量加、减抽样 误差得到的: 统计量-抽样误差 到 统计量+抽样误差 • 例如 假设在一群人中,相信中国产品质量好的人占58%, 抽样误差为±3%。则总体百分点的置信区间为: 58-3 到 58+3 • 如果在一次大选中某人的支持率为55%,而置信水平0.95 上的置信区间是(50%,60%),那么他的真实支持率有 百分之九十五的机率落在百分之五十和百分之六十之间, 因此他的真实支持率不足一半的可能性小于百分之五。
• 置信区间, 它由奈曼(Neymann)于1934年提出的 。
总体百分比的置信区间
• 从一个大的总体抽取一个由n个观测值组成的随机样本, 并用P来标记样本百分比,那么总体百分比π的一个95% 置信区间为: P(1 P) P(1 P) • 到 P 1 . 96 P 1.96
n
n
• 一个快速计算95%置信区间的近似方法是令P=50,同时四 舍五入1.96到2,得到置信区间: 100 100 • 到 P P
• 因为统计学家有某种程度的信心认为这个区间会 包含真正的固定的参数值,所以给它取名为置信 区间。 • 如果我们收集了许多不同的样本,并对每个样本 都构造了一个置信区间。这些置信区间有足够的 宽度使他们中的95%包含了总体百分点的真值, 而5%没包含,则95%这个值就称为置信水平。 • 如果用 某种方法构造的所有区间中有95%的区间 包含真值,5%的区间不包含真值,那么这些用该 方法构造的区间都叫做置信水平为95%的置信区 间。
n
n
• 如果要把误差控制在3左右,那么要求样本含有1111个观 测值。这就是为什么大多数问卷调查中样本要求1200个响 应者的原因。
总体均值μ的置信区间
• 由n个独立的、服从正态分布的观测组成的一个样本,样 本均值记为 x ,样本标准差记为s。则总体均值的置信区 间为: * s x t n 这里t*=t(1-a)/2是t变量的一个值,a为置信水平。t*=t(1-a)/2 可以从自由度为n-1的t分布的统计表中查到。 • 若总体的标准差σ是已知的,那么可以用σ去代替上述公式 中的样本标准差s,同时用来自正态分布的z*代替t分布中 的t*。于是置信区间为:
xz
*ຫໍສະໝຸດ Baidu

n
• 当z*=1.96时,它是一个95%的置信区间。
• 例 在一个大公司里的49名雇员的样本中,这些雇员一年 中平均有7.0天在生病,其标准差为2.5天。 • 根据上述公式,我们可以得到雇员一年中平均生病天数的 95%置信区间为:
7.0 t * 2.5 49
(2.01 )( 7.0 2.5 49 ) 6.3到7.7
相关文档
最新文档