第八章 参数估计

合集下载

第8章 参数估计

第8章 参数估计

f
x,
x 1 0
求参数 的极大似然估计.
0 x 1,
其它
解 设 X1, X 2 ,L , X n为来自总体的样本, 则似然函数为
L n x1x2L xn 1 ,
取对数后有:
nபைடு நூலகம்
ln L nln 1ln xi, i1
上式对 求导, 并令其为零, 则有
解之得
dln L
d
n
n i1
h X1, X2,L , Xn , 通过样本观测值 x1, x2,L , xn 所对应的估计值
h x1, x2,L , xn
作为总体参数的估) 计值. 记作
h x1, x2,L , xn .
点估计的意义: 在数轴上表示一个点.
区间估计的含义是: 依据样本来估计未知参数的某一 范围.
区间估计的具体实现: 由样本构造两个统计量:
h1 X1, X2,L , Xn , h2 X1, X2,L , Xn ,
再由观测值 x1, x2 ,L , xn 得到具体的区间
h1 x1, x2,L , xn , h2 x1, x2,L , xn ,
以此区间作为未知参数的区间估计.
二、两种常用点估计
下面讨论两种常用的点估计方法: 矩估计和极大似然 估计.
例5 设 X1, X 2 ,L X n 是取自于总体的一个样本, 其中
X : R0, , 因
1
E
X
2
,
因此 21 的矩估计为2 X .
例6 设 X1, X 2 ,L X n 是取自于总体的一个样本, X 的
密度函数为
f
x
1
x
,
0,
求 的矩估计. 这里 1.

统计学第七章、第八章课后题答案

统计学第七章、第八章课后题答案

统计学复习笔记之南宫帮珍创作第七章第八章参数估计一、思考题1.解释估计量和估计值在参数估计中, 用来估计总体参数的统计量称为估计量.估计量也是随机变量.如样本均值, 样本比例、样本方差等.根据一个具体的样本计算出来的估计量的数值称为估计值. 2.简述评价估计量好坏的标准(1)无偏性:是指估计量抽样分布的期望值即是被估计的总体参数.(2)有效性:是指估计量的方差尽可能小.对同一总体参数的两个无偏估计量, 有更小方差的估计量更有效.(3)一致性:是指随着样本量的增年夜, 点估计量的值越来越接近被估总体的参数.3.怎样理解置信区间在区间估计中, 由样本统计量所构造的总体参数的估计区间称为置信区间.置信区间的论述是由区间和置信度两部份组成.有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间), 其实不说明置信度, 也不给出被调查的人数, 这是不负责的暗示.因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌.在公布调查结果时给出被调查人数是负责任的暗示.这样则可以由此推算出置信度(由后面给出的公式), 反之亦然.4.解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率.也就是说, 无穷次重复抽样所获得的所有区间中有95%(的区间)包括参数.不要认为由某一样本数据获得总体参数的某一个95%置信区间, 就以为该区间以0.95的概率覆盖总体参数.5.简述样本量与置信水平、总体方差、估计误差的关系.1.估计总体均值时样本量n为其中:2.样本量n与置信水平1-α、总体方差、估计误差E之间的关系为▪与置信水平成正比, 在其他条件不变的情况下, 置信水平越年夜, 所需要的样本量越年夜;▪与总体方差成正比, 总体的不同越年夜, 所要求的样本量也越年夜;▪与与总体方差成正比, 样本量与估计误差的平方成反比, 即可以接受的估计误差的平方越年夜, 所需的样本量越小.二、练习题1.从一个标准差为5的总体中采纳重复抽样方法抽出一个样本量为40的样本, 样本均值为25.1)样本均值的抽样标准差即是几多?2)在95%的置信水平下, 估计误差是几多?解: 1)已知σ = 5, n = 40, = 25∵∴2)已知∵2.某快餐店想要估计每位顾客午餐的平均花费金额, 在为期3周的时间里选取49名顾客组成了一个简单随机样本.1)假定总体标准差为15元, 求样本均值的抽样标准误差.2)在95%的置信水平下, 求估计误差.3)如果样本均值为120元, 求总体均值µ的95%的置信区间.解:1)已知σ = 15, n = 49∵∴2)已知∵3)已知 = 120∵ 置信区间为±E3.从一个总体中随机抽取n =100的随机样本, 获得 =104560, 假定总体标准差σ = 85414, 试构建总体均值µ的95%的置信区间.解:已知n =100, =104560, σ = 85414, 1-a=95% ,由于是正态总体, 且总体标准差已知.总体均值m在1-a置信水平下的置信区间为104560 ± 1.96×85414÷√1004.从总体中抽取一个n =100的简单随机样本, 获得 =81, s=12.要求:1)构建µ的90%的置信区间.2)构建µ的95%的置信区间.3)构建µ的99%的置信区间.解:由于是正态总体, 但总体标准差未知.总体均值m在1-a置信水平下的置信区间公式为81±×12÷√100 = 81±×????????4)= 25, σ = 3.5, n =60, 置信水平为95%5)=119, s =23.89, n =75, 置信水平为98%6)=3.149, s =0.974, n =32, 置信水平为90%解:∵∴ 1) 1-a=95% ,其置信区间为:25±1.96×3.5÷√602) 1-a=98% , 则a=0.02, a/2=0.01, 1-a/2=0.99,查标准正态分布表,可知:其置信区间为: 119±2.33×23.89÷√753) 1-a=90%,其置信区间为:3.149±1.65×0.974÷√325.利用下面的信息, 构建总体均值µ的置信区间:1)总体服从正态分布, 且已知σ = 500, n = 15, =8900, 置信水平为95%.解:N=15, 为小样本正态分布, 但σ已知.则1-a=95%, .其置信区间公式为∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2)2)总体不服从正态分布, 且已知σ = 500, n = 35, =8900,置信水平为95%.解:为年夜样本总体非正态分布, 但σ已知.则1-a=95%, .其置信区间公式为∴置信区间为:8900±1.96×500÷√35=(8733.9 9066.1)3)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为90%.解:为年夜样本总体非正态分布, 且σ未知, 1-a=90%,1.65.其置信区间为:8900±1.65×500÷√35=(8761 9039)4)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为99%.解:为年夜样本总体非正态分布, 且σ未知, 1-a=99%,2.58.其置信区间为:8900±2.58×500÷√35=(8681.9 9118.1)6.某年夜学为了解学生每天上网的时间, 在全校7500名学生中采用重复抽样方法随机抽取36人, 调查他们每天上网的时间, 获得下面的数据(单元:小时)(略).求该校年夜学生平均上网时间的置信区间, 置信水平分别为90%解:先求样本均值:= 3.32再求样本标准差:置信区间公式:7.从一个正态总体中随机抽取样本量为8的样本, 各样本值分别为:10, 8, 12, 15, 6, 13, 5, 11.求总体均值µ的95%置信区间.解:本题为一个小样本正态分布, σ未知.先求样本均值:= 80÷8=10再求样本标准差:于是 , 的置信水平为的置信区间是,已知, n = 8, 则,α/2=0.025, 查自由度为n-1 = 7的分布表得临界值所以, 置信区间为:10±2.45×3.4641÷√78.某居民小区为研究职工上班从家里到单元的距离, 抽取了由16个人组成的一个随机样本, 他们到单元的距离分别是:10, 3,14, 8, 6, 9, 12, 11, 7, 5, 10, 15, 9, 16, 13, 2.假设总体服从正态分布, 求职工上班从家里到单元平均距离的95%的置信区间.解:小样本正态分布, σ未知.已知, n = 16, , 则, α/2=0.025, 查自由度为n-1 = 15的分布表得临界值样本均值再求样本标准差:于是 , 的置信水平为的置信区间是?? ??????????????????±??×??÷√??9.从一批零件是随机抽取????个, 测得其平均长度是??????, 标准差是????.1)求确定该种零件平均长度的????August的置信区间.2)在上面估计中, 你使用了统计中的哪一个重要定理?请解释.解:)??这是一个年夜样天职布.已知N??????, ??????????????, S????????, α?? ????, .其置信区间为:149.5±1.96×1.93÷√36 2)中心极限定理论证:如果总体变量存在有限的平均数和方差, 那么, 不论这个总体的分布如何, 随着样本容量的增加, 样本均值的分布便趋近正态分布.在现实生活中, 一个随机变量服从正态分布未必很多, 可是多个随机变量和的分布趋于正态分布则是普遍存在的.样本均值也是一种随机变量和的分布, 因此在样本容量充沛年夜的条件下, 样本均值也趋近于正态分布, 这为抽样误差的概率估计理论提供了理论基础.10.某企业生产的袋装食品采纳自动打包机包装, 每袋标准重量为100克, 现从某天生产的一批产物中按重复抽样随机抽取50包进行检查, 测得每包重量如下:(略)已知食品包重服从正态分布, 要求:1)确定该种食品平均重量的95%的置信区间.2)如果规定食品重量低于100克属于分歧格, 确定该批食品合格率的95%的置信区间.解:1)本题为一个年夜样本正态分布, σ未知.已知N=50, µ=100, 1-α=0.95, .① 每组组中值分别为97、99、101、103、105, 即此50包样本平均值= (97+99+101+103+105)/5 = 101② 样本标准差为:③其置信区间为:101±1.96×1.666÷√502)∵ 分歧格包数(<100克)为2+3=5包, 5/50 = 10%(分歧格率), 即P = 90%.∴ 该批食品合格率的95%置信区间为:11.假设总体服从正态分布, 利用下面的数据构建总体均值μ的99%的置信区间.(略)解:样本均值样本标准差:尽管总体服从正态分布, 可是样本n=25是小样本, 且总体标准差未知, 应该用T统计量估计.1-α=0.99, 则α=0.01, α/2=0.005, 查自由度为n-1 =24的分布表得临界值的置信水平为的置信区间是,12.一家研究机构想估计在网络公司工作的员工每周加班的平均时间, 为此随机抽取了18个员工, 获得他们每周加班的时间数据如下(单元:小时):(略)假定员工每周加班的时间服从正态分布, 估计网络公司员工平均每周加班时间的90%的置信区间.解:① N = 18 < 30, 为小样本正态分布, σ未知.②样本均值样本标准差:=③ 1-α= 90%, α= 0.1, α/2= 0.05, 则查自由度为n-1 = 17的分布表得临界值④的置信水平为的置信区间是,13.利用下面的样本数据构建总体比例丌的置信区间:1)n =44, p = 0.51 , 置信水平为99%2)n =300, p = 0.82 , 置信水平为95%3)n =1150, p = 0.48, 置信水平为90%解: 1) 1-α= 99%, α= 0.01, α/2= 0.005, 1-α/2= 0.995, 查标准正态分布表, 则2)1-a=95%,3)1-a=90%,分别代入14.在一项家电市场调查中, 随机抽取了200个居民户, 调查他们是否拥有某一品牌的电视机, 其中拥有该品牌电视机的家庭占23%.求总体比例的置信区间, 置信水平分别为90%和95%.解: 1)置信水平90%, 1-a=90%, 1.65, N = 200, P = 23%.代入2)置信水平95%, 1-a=95%, , N = 200, P = 23%.代入15.一位银行的管理人员想估计每位顾客在该银行的月平均存款额.他假设所有顾客月存款额的标准差为1000元, 要求的估计误差在200元以内, 置信水平为99%.应选取多年夜的样本?解:已知 1-α = 99%, 则 2.58.E = 200, σ= 1000元.则N = (²×σ²)÷E²= (2.58²×1000²)÷200²≈167(得数应该是166.41, 不论小数后是几多, 都向上进位取整, 因此至少是167人)16.要估计总体比例丌, 计算下列条件下所需的样本量.1)E=0.02, 丌=0.40, 置信水平96%2)E=0.04, 丌未知, 置信水平95%3)E=0.05, 丌=0.55, 置信水平90%解: 1)已知 1-α = 96%, α/2 =0.02 , 则N = {²×丌(1-丌)}÷E²=2.06²×0.4×0.6÷0.02²≈25472)已知 1-α = 95%, α/2 =0.025 , 则丌未知,则取使丌(1-丌)最年夜时的0.5.N = {²×丌(1-丌)}÷E²=1.96²×0.5×0.5÷0.04²≈601 3)置信水平90%, 1-a=90%, 1.65,N = {²×丌(1-丌)}÷E²=1.65²×0.55×0.45÷0.05²≈27017.某居民小区共有居民500户, 小区管理者准备采纳一项新的供水设施, 想了解居民是否赞成.采用重复抽样方法随机抽取了50户, 其中有32户赞同, 18户反对.1)求总体中赞成该项改革的户数比例的置信区间(α=0.05)2)如果小区管理者预计赞成的比例能到达80%, 估计误差不超越10%, 应抽取几多户进行调查(α=0.05)解:1)已知N=50, P=32/50=0.64, α=0.05, α/2 =0.025 , 则置信区间:P±2)已知丌=0.8 , E = 0.1, α=0.05, α/2 =0.025 , 则N= ²丌(1-丌)/E²= 1.96²×0.8×0.2÷0.1²≈6218.根据下面的样本结果, 计算总体标准差σ的90%的置信区间:1)=21, S=2, N=502)=1.3, S=0.02, N=153)=167, S=31, N=22解:1)年夜样本, σ未知, 置信水平90%, 1-a=90%,21±1.65×2÷√502)小样本, σ未知, 置信水平90%, 1-a=90%, 则查自由度为n-1 = 14的分布表得临界值, = 1.3±1.761×0.02÷√153) 年夜样本, σ未知, 置信水平90%, 1-a=90%,167±1.65×31÷√2219.题目(略)1)构建第一种排队方式等候时间标准差的95%的置信区间2)构建第二种排队方式等候时间标准差的95%的置信区间3)根据1)和2)的结果, 你认为哪种排队方式更好?解:本题为小样本正态分布, σ未知, 应用公式,置信水平95%, 1-a=95%, 则查自由度为n-1 = 9的分布表得临界值1)= 7.15,其置信区间为7.15±2.31×0.48÷√102)= √0/9 = 0其置信区间为7.15±04)第二种排队方式更好.(19题是对总体方差的估计, 应该用卡方统计量进行估计, 20题是对两个总体参数的估计, 这二种类型老师未讲, 不是本次考试的内容, 不能用Z统计量像估计总体均值和比例那样去估计, 具体内容见书上P188――P194)第九章假设检验一、思考题1.假设检验和参数估计有什么相同点和分歧点?解:参数估计与假设检验是统计推断的两个组成部份.相同点:它们都是利用样本对总体进行某种推断.分歧点:推断的角度分歧.参数估计讨论的是用样本统计量估计总体参数的方法, 总体参数μ在估计前是未知的.而在假设检验中, 则是先对μ的值提出一个假设, 然后利用样本信息去检验这个假设是否成立.2.什么是假设检验中的显著性水平?统计显著是什么意思?解:显著性水平用α暗示, 在假设检验中, 它的含义是当原假设正确时却被拒绝的概率或风险, 即假设检验中犯弃真毛病的概率.它是由人们根据检验的要求确定的.(我理解的统计学意义, 统计显著是统计上专用的判定标准, 指在一定的概率原则下, 可以供认一种趋势或者合理性到达的水平, 到达为统计上水平显著, 达不到为统计上水平不显著)3.什么是假设检验中的两类毛病?解:弃真毛病(α毛病):当原假设为真时拒绝原假设, 所犯的毛病成为第I类毛病, 又称为弃真毛病.犯第I类毛病的概率常记作α.取伪毛病(β毛病):当原假设为假时没有拒绝原假设, 所犯的毛病称为第II类毛病, 又称取伪毛病.犯第II类毛病概率常记作β.发生第I类毛病的概率也常被用于检验结论的可靠性怀抱.假设检验中犯第I类毛病的概率被称为显著性水平, 记作α.4.两类毛病之间存在什么样的数量关系?在样本容量n一定的情况下, 假设检验不能同时做到犯α和β两类毛病的概率都很小.若减小α毛病, 就会增年夜犯β毛病的机会;若减小β毛病, 也会增年夜犯α毛病的机会.要使α和β同时变小只有增年夜样本容量.但样本容量增加要受人力、经费、时间等很多因素的限制, 无限制增加样本容量就会使抽样调查失去意义.因此假设检验需要慎重考虑对两类毛病进行控制的问题.5.解释假设检验中的P值.解:如果原假设为真, 所获得的样本结果会像实际观测结果那么极端或更极真个概率, 称为P值.也称为观察到的显著性水平.P值是反映实际观测到的数据与原假设H0之间纷歧致水平的一个概率值.P值越小, 说明实际观测到的数据与H0之间纷歧致水平就越年夜.6.显著性水平与P值有何区别?解:α(显著性水平)是一个判断的标准(当原假设为真, 却被拒绝的概率), 而P是实际统计量对应分位点的概率值(当原假设为真时, 所获得的样本观察结果或更极端结果呈现的概率).可以通过α计算置信区间, 然后与统计量进行比力判断, 也可以通过统计量计算对应的p值, 然后与α值比力判断.7.假设检验依据的基来源根基理是什么?解:假设检验利用的是小概率原理, 小概率原理是指发生概率很小的随机事件在一次试验中是几乎不成能发生的.根据这一原理, 可以先假设总体参数的某项取值为真, 也就是假设其发生的可能性很年夜, 然后抽取一个样本进行观察, 如果样本信息显示呈现了与事先假设相反的结果且与原假设分歧很年夜, 则说明原来假定的小概率事件在一次实验中发生了, 这是一个违背小概率原理的分歧理现象, 因此有理由怀疑和拒绝原假设;否则不能拒绝原假设.8. 你认为在单侧检验中原假设和备择假设的方向应该如何确定?解: 假设问题有两种情况, 一种是所考察的数值越年夜越好(左单侧检验或下限检验), 临界值和拒绝域均在左侧;另一种是数值越小越好(右单侧检验或上限检验), 临界值和拒绝域均在右侧.二、 练习题1. 已知某炼铁厂的含碳量服从正态分布N (4.55, 0.108²), 现在测定了9炉铁水, 其平均含碳量为4.484.如果估计方差没有变动, 可否认为现在生产的铁水平均含碳量为4.55(α=0.05)? 解: 已知μ0=4.55, σ²=0.108², N=9, =4.484,这里采纳双侧检验, 小样本, σ已知, 使用Z 统计.假定现在生产的铁水平均含碳量与以前无显著不同.则, α=0.05, α/2 =0.025 , 查表得临界值为计算检验统计量: = (4.484-4.55)/(0.108/√9) 决策:∵Z 值落入接受域, ∴在=0.05的显著性水平上接受H0. nx Z / σ - =μ0结论:有证据标明现在生产的铁水平均含碳量与以前没有显著不同, 可以认为现在生产的铁水平均含碳量为4.55.2. 一种元件, 要求其使用寿命不得低于700小时.现从一批这种元件中随机抽取36件, 测得其平均寿命为680小时.已知该元件寿命服从正态分布, σ=60小时, 试在显著性水平0.05下确定这批元件是否合格.解: 已知N=36, σ=60, =680, μ0=700这里是年夜样本, σ已知, 左侧检验, 采纳Z 统计量计算. 提出假设:假定使用寿命平均不低于700小时H0:μ≥700H1: μ < 700= 0.05, 左检验临界值为负, 查得临界值: -Z0.05=-1.645计算检验统计量: = (680-700)/(60/√36) = -2决策:∵Z 值落入拒绝域, ∴在=0.05的显著性水平上拒绝H0, 接受H1结论:有证据标明这批灯胆的使用寿命低于700小时, 为分歧格产物.3. 某地域小麦的一般生产水平为亩产250公斤, 其标准差是30公斤.现用一种化肥进行试验, 从25个小区抽样, 平均产量为n x Z / σ - = μ0270公斤.这种化肥是否使小麦明显增产(α=0.05)?解:已知μ0 =250, σ = 30, N=25, =270提出假设:假定这种化肥没使小麦明显增产.即 H0:μ≤250H1: μ>250计算统计量:Z = (结论:Z统计量落入拒绝域, 在α =0.05的显著性水平上, 拒绝H0, 接受H1.决策:有证据标明, 这种化肥可以使小麦明显增产.4.糖厂用自动打包机打包, 每包标准重量是100千克.每天开工后需要检验一次打包机工作是否正常.某日开工后测得9包重量(单元:千克)如下:(略)已知包重服从正态分布, 试检验该日打包机工作是否正常.(α =0.05)= 99.98提出假设, 假设打包机工作正常:即 H0:μ= 100H1: μ≠100计算统计量:决策:有证据标明这天的打包机工作正常.5. 某种年夜量生产的袋装食品, 按规定不得少于250克.今从一批该食品中任意抽取50袋, 发现有6袋低于250克.若规定不符合标准的比例超越5%就不得出厂, 问该批食品能否出厂(=0.05)?H0:丌≤5%H1:丌>5%(因为没有找到丌暗示的公式, 这里用P0暗示丌0)结论:因为Z 值落入拒绝域, 所以在=0.05的显著性水平上, 拒绝H0, 而接受H1.决策:有证据标明该批食品合格率不符合标准, 不能出厂. 6. 某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超越目前的平均水平25000公里.对一个由15个轮胎组成的随机样本做了试验, 获得样本均值和标准差分别为27000公里和5000公里.假定轮胎寿命服从正态分布, 问该厂家的广告是否真- = ns x t μ0实(=0.05)?解:N=15,H0:μ0 ≤25000H1:μ >25000结论:因为t 值落入接受域, 所以接受H0, 拒绝H1.决策:有证据标明, 该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性不同, 该厂家广告不真实. 7. 某种电子元件的寿命x (单元:小时)服从正态分布.现测得16只元件的寿命如下:(略).问是否有理由认为元件的平均寿命显著地年夜于225小时(=0.05)? 解:= 241.5,H :μ??> ??创作时间:二零二一年六月三十日 - = ns x t - = ns x tμ0 μ0。

第八章 参数估计

第八章 参数估计
2

σ
即置信区间为[1446.16,2553.84] 显然我们有95%的把我说,总体平均值在1446.16 ~ 2553.84分之间
四、
σ
未知且大样本时总体平均数的区间估计
σ 未知但样本容量 n > 30 即大样本时,可用标准
正态分布近似地当作 t 分布,故此时的总体平均 数置信区间为
x ± zα sx
§8.2 总体平均数的区间估计
一、 样本取自总体方差已知的正态分布
如果总体服从正态分布 N ( µ , σ 2 ) ,且 σ 2 已知时, 且 已知时, 总体平均数的置信区间为: 总体平均数的置信区间为:
x ± z
α
2
σ
x
总体平均数区间估计的步骤: 总体平均数区间估计的步骤:
(1)确定置信水平,即可靠性或把握程度。一般来说对于估 确定置信水平,即可靠性或把握程度。 确定置信水平 计要求比较精确的话,置信程度也要求高些, 计要求比较精确的话,置信程度也要求高些,在社会经济 现象中通常用95% 现象中通常用 %就可以了 (2)根据置信度并利用标准正态分布表确定 z 值 根据置信度并利用标准正态分布表确定
二、 样本取自总体方差已知的非正态分布 在很多情况下,总体为非正态分布, 在很多情况下,总体为非正态分布,但由中心极限 定理, 足够大, 定理,当样本容量 n 足够大,无论总体服从什么分 的抽样分布将近似服从正态分布, 布, x 的抽样分布将近似服从正态分布,故可以用
x ± z α σ x 公式来近似求出总体平均的置信区间。 公式来近似求出总体平均的置信区间。
2
例8 − 2某职业介绍所的职员从某一职业的1000名申请者 中采用不重复抽样方式随机抽取了200名申请者,借此 估计1000名申请者考试的平均成绩,已知由200名申请者 构成的样本平均分 x = 78分,由已往经验已知总体方差 为90,但该职员不知总体服从何种分布,试求µ的90% 的置信区间?

概率论和数理统计(第三学期)第8章参数估计

概率论和数理统计(第三学期)第8章参数估计
n n 1
由契比雪夫不等式,有
P( S 2 ES2
n
n
)
DS
2
n

2 4
2 n 1 2
即 lim P( S 2 ES2 ) 0
n
n
n
(n 1)S 2
E
2
n n 1
ES2 2 n
故 lim P( S 2 2 ) 0
n
n
§8.3 参数的区间估计
定义
设是总体的未知参数,若 (1 1
6
S~2 1 1.20 0.162 0.85 0.162 0.30 0.162 6 0.45 0.162 0.82 0.162 0.12 0.162 1 1.042 0.692 0.142 0.612 0.982 0.282 6 1 2.99 6 0.498 2
n
p xi
1
p
1 xi
xi p i1
1
p
n
n xi
i1
i 1
n
令y xi,得: i 1 ln Lxi , p y ln p n yln1 p
由对数似然方程
d ln L y n y 0 dp p 1 p
解得
p
y n
1 n
n i 1
xi
x
因为这是惟一的解,所 以p的极大似然估计值为
二、顺序统计量法
定义
1
, 2
,
,
为总体
n
的一个样本,将它
们按大小次序排列,取 居中的一个数 (若n为偶
数时,则取居中两数的 平均值)记为~,称~为
样本中位数。

~
k
1
,
1 2
k

第八章 参数估计讲解

第八章  参数估计讲解

第八章参数估计统计推断是数理统计的重要组成部分,它包括统计估计和假设检验两类基本问题.统计估计是根据样本的信息对总体分布的概率特性(如分布类型、参数等)作出估计,统计估计又分为参数估计和非参数估计,本章只讨论参数估计问题.在实际问题中,经常遇到随机变量X (即总体X )的分布函数的形式已知,但它的一个或者多个参数未知的情形,此时写不出确切的概率密度函数.若通过简单随机抽样,得到总体X 的一个样本观测值12(,,,)n x x x ,我们自然会想到利用这一组数据来估计这一个或多个未知参数.诸如此类,利用样本去估计总体未知参数的问题,称为参数估计问题.参数估计问题有两类,分别是点估计和区间估计.第一节 点估计的概述用一个数值估计某个参数,这种估计就是点估计.比方说我们要考察某医院新出生婴儿的男女比例,抽查了100个婴儿,按后估计出这个比例值为0.83,这个比值就是“比例”这个未知数的点估计值.定义8.1 设总体X 的分布函数(,)F x q 形式已知,其中q 是待估计的参数,点估计问题就是利用样本12(,,,)n X X X ,构造一个统计量12ˆˆ(,,,)n X X X q q =来估计q ,我们称12ˆ(,,,)n X X X q 为q 的点估计量,它是一个随机变量.将样本观测值12(,,,)n x x x 代入估计量12ˆˆ(,,,)n X X X q q =,就得到它的一个具体数值12ˆ(,,,)n x x x q ,这个数值称为q的点估计值.一、矩估计法矩估计法的基本思想是用样本矩估计总体矩. 因为由大数定理知, 当总体的k 阶矩存在时,样本的k 阶矩依概率收敛于总体的k 阶矩.我们假设总体X 的分布函数为12(;,,,)k F x q q q ,其中12,,,k q q q 是待估参数.若总体X 为连续型随机变量,设密度函数为12(;,,,)k f x q q q ;若总体X 为离散型随机变量,设分布律为12{}(;,,,)k P X x p x q q q ==.12(,,,)n X X X 是来自总体的样本.假设总体X 的1阶至k 阶原点矩i m 都存在,则有1212()(;,,,)(,,,)i i i k i k E X x f x dx m q q q m q q q +?-?===ò(X 为连续型)1,2,,i k =或 1212()(;,,,)(,,,)ii i k i k x RE X x p x m q q q m q q q Î===å(X 为离散型)1,2,,i k =(其中R 是X 所有可能取值的集合).一般来说,他们是12,,,k q q q 的函数.根据样本矩依概率收敛于总体矩,样本矩的连续函数依概率收敛于总体矩的连续函数,我们可以用样本矩作为总体矩的估计量,而样本矩的连续函数作为总体矩的连续函数的估计量.即11ˆn ii i j j A X n m===å 1,2,,i k =得方程组12ˆ(,,,)i k i m q q q m= 1,2,,i k =解得12ˆˆ(,,,)i i n X X X q q = 1,2,,i k =称ˆiq 为i q 的矩估计量,这种方法称为矩估计法. 相应的估计值称为矩估计值,矩估计量与矩估计值统称为矩估计. 例8.1 设总体X 服从区间12(,)q q 上的均匀分布,即密度函数为1221121,-(;,)0,x f x q q q q q q ì<<ïï=íïïî其他其中12,q q 未知,12(,,,)n X X X 是来自总体的样本,求12,q q 的矩估计量.解12()2E X q q +=22222112(-)()()(())()122E X D X E X q q q q +=+=+ 令121112nj j A X n q q =+==å 222211221(-)1()122n j j A X n q q q q =++==å 解之得12,q q 的矩估计量为11ˆA q =-21ˆA q =例8.2 设总体X 服从泊松分布()p l ,参数l 未知,12(,,,)n X X X 是来自总体的一个样本,求参数l 的矩估计量.解 总体的1阶原点矩即数学期望为()E X l =用样本的1阶原点矩(即样本均值)代替总体的1阶原点矩得方程11ni i X n l ==å所以l 的矩估计量为11ˆni i X X n l ===å.矩估计法的优点是简单易行,并不需要事先知道总体服从什么分布.缺点是当总体类型已知时,没有充分利用分布提供的信息.一般场合下,矩估计量不具有唯一性.其主要原因在于建立矩估计法方程时,选取那些总体矩用相应样本矩代替带有一定的随意性.二、最大似然估计法先通过一个例子了解一下最大似然估计的基本思想.某同学与一位猎人一起去打猎,一只野兔从前方窜过, 只听一声枪响, 野兔应声倒下, 试猜测是谁打中的?由于只发一枪便打中,而猎人命中的概率一般大于这位同学命中的概率, 故一般会猜测这一枪是猎人射中的.这个例子所作的推断已经体现了最大似然法的基本思想 :一次试验就出现的事件有较大的概率.即在已经得到实验结果的情况下, 应该寻找使这个结果出现的可能性最大的那个q 作为q 的估计ˆq .下面分别就离散型总体和连续型总体情形作具体讨论. 离散型总体的情形: 设总体X 的概率分布为12{}(;,,,),k P X x p x q q q ==其中(1,2,,)i i k q =为未知参数.如果12(,,,)n X X X 是取自总体X 的样本,样本的观察值为12(,,,)n x x x ,则样本的联合分布律11121{,,}(;,,,),nn n i k i P X x X x p x q q q ====Õ对确定的样本观察值12(,,,)n x x x ,上式是未知参数(1,2,,)i i k q =的函数,记为121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x p x q q q q q q q q q ===Õ,并称其为似然函数.连续型总体的情形: 设总体X 的概率密度为12(;,,,)k f x q q q ,其中(1,2,,)i i k q =为未知参数,此时定义似然函数121212121(,,,)(,,,;,,,)(;,,,)nk n k i k i L L x x x f x q q q q q q q q q ===Õ.似然函数12(,,,)k L q q q 的值的大小意味着该样本值出现的可能性的大小, 在已得到样本值12(,,,)n x x x 的情况下, 则应该选择使12(,,,)k L q q q 达到最大值的那个(1,2,i i q =,)k 作为i q 的估计ˆiq . 这种求点估计的方法称为最大似然估计法. 定义8.2 若对任意给定的样本值12(,,,)n x x x , 存在12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==,使 1212ˆˆˆ(,,,)max (,,,),ik k L L q q q q q q q =则称12ˆ(,,,)(1,2,,)i n x x x i k q =为i q 的最大似然估计值.称相应的统计量12ˆ(,,,)i n X X X q 为i q 最大似然估计量. 它们统称为i q 的最大似然估计.由定义可知,求参数的最大似然估计问题,就是求似然函数的最大值点的问题.因此可以对似然函数12(,,,)k L q q q 关于i q 求导.又由于12(,,,)k L q q q 和12ln (,,,)k L q q q 有相同的最大值点,故只需求12ln (,,,)k L q q q 的最大值点即可.这样往往会给计算带来很大方便.在一般情况下, 12ln (,,,)k L q q q 在最大值点的一阶偏导数为零,此时只需解最大似然方程组12ln (,,,)0,1,2,,k iL i k q q q q ¶==¶即可得参数的最大似然估计.例8.3 设随机变量X 服从泊松分布,即分布律为-{},0,1,2,...!k e P X k k k ll ===.其中0l >是未知参数,求l 的最大似然估计.解 设12(,,,)n x x x 是样本12(,,,)n X X X 的一组观测值.于是似然函数为1--1211()(;,,...,)()!ni i i x x nn n n i i ii L L x x x e e x xl l l l l l ===å====ÕÕ两边取对数得对数似然函数为11ln ()-ln -ln(!)n n i i i i L n x x l l l ===+邋令1ln ()1-0ni i d L n x d l l l ==+=å解方程得22ˆln ()ˆ0xd L xd l l l l ==<且 从而得出l 最大似然估计为ˆX l =.例8.4 设12(,,,)n X X X 是来自正态总体2(,)N m s 的样本,其中2,m s 是未知参数.求2,m s 的最大似然估计.解 由已知得样本的似然函数为222122/22111(,)(,;,,...,)exp{-(-)}(2)2n n i n i L L x x x x m s m s m ps s ===å 两边取对数得222211ln (,)-ln(2)-2ln -(-)22n i i n L n x m s p s m s ==å分别关于m 和2s 求偏导数,得似然方程组2122241ln 1(-)0ln 1-(-)022ni i n i i L x Ln x m m s m ss s ==ì¶==ï¶ïí¶ï=+=ï¶îåå 解这一方程组得12211ˆ1ˆ(-)ni i ni i x x n x x n m s ==ì==ïïíï=ïîåå.由微积分知识易验证以上所求为m 和2s 的最大似然估计. 由上例我们可以总结出求最大似然估计的一般步骤如下:(1) 写出似然函数12(,,,)k L q q q ;(2) 写出对数似然函数12ln (,,,)k L q q q ,及方程组ln ()0,1,2,,iL i k q q ¶==¶;(3)解上述方程组得最大似然估计值12ˆˆ(,,,)(1,2,,)i i n x x x i k q q ==.值得注意的是,通过取对数得到对数似然方程,进而解对数似然方程组求最大值点的方法并不总是有效的,因此应该具体问题具体分析.例8.5设总体X 服从均匀分布,即概率密度函数为1,0(;)00,x f x q q q q qì<<ï=<<?íïî,未知其他求参数q 的最大似然估计.解 设12(,,,)n X X X 是来自总体的样本,似然函数为121(;,,,),0,1,2,,n i nL x x x x i n q q q =<?显然12(;,,,)n L x x x q 关于q 单调,要使12(;,,...,)n L x x x q 达到最大,就要使q 达到最小,由于()10max{},1,2,...,i n i i nx x x i n q #<??所以q 的最大似然估计值为1ˆmax{}i i nx q #=q 的最大似然估计量为121ˆ(,,...,)max{}n ii nX X X X q #=.习题8-1A 组1.其中03q <<,求q 的矩估计. 2.一批灯泡的使用寿命的抽取样本如下(单位:h ):1458, 1395, 1565, 1614, 1351, 1490, 1478, 1382, 1536, 1496 试用矩估计法针对这批灯泡的平均寿命m 及寿命方差2s 做出矩估计.3.设12(,,,)n X X X 是来自总体X 的样本,X 服从参数为p 的几何分布,即X 的分布律为-1{}(1-)(1,2,)k P X k p p k ===其中p 未知,01p <<,求p 的最大似然估计.4.已知总体X 的密度函数为-1,01(;)0.0,x x f x q q q q ì<<ï=>íïî其他求:(1)参数q 的矩估计;(2)参数q 的最大似然估计. B 组1. 设总体的分布律为2-2{}(-1)(1-)(2,3,,01)k P X k k k q q q ===<<,q 未知.求q 的矩估计和最大似然估计.2.设总体X 的密度函数为12-112221,(;,)0.0,x e x f x q q q q q q q -ìï³ï=>íïïî其他求12,q q 的最大似然估计.3.已知总体X 是离散型随机变量,X 的可能取值为0,1,2,且2{2}(1-)P X q ==,()2(1-)E X q =(q 为未知参数).求:(1)X 的概率分布;(2)对X 抽取容量为10的样本,其中5个取1,3个取2,2个取0.求q 的矩估计值和最大似然估计值.4.已知总体X 的密度函数为-(-2),2()0.0,x ex f x l l l ì>ï=>íïî其他12(,,,)n X X X 是来自总体X 的样本,2Y X =.(1)求Y 的期望()E Y (记()E Y b =); (2)求l 的矩估计量和最大似然估计量(3)利用上述结果求b 的最大似然估计量.第二节点估计量的评选标准对于总体的同一个未知参数,由于采用的估计方法不同,可能会产生多个不同的估计量.这就提出了一个问题,当总体的同一个参数存在不同的估计量时,究竟采用哪一个更好?这涉及到用什么样的标准来评价估计量的好坏问题,对此,我们介绍几个常用的评价标准:无偏性、有效性和一致性.一、无偏性在评价一个估计量的好坏时,我们当然希望估计量与被估参数越接近越好,但估计量是一个随机变量,它的取值随样本的观测值而变,有时与被估参数的真值近些,有时远些,我们只能从平均意义上看估计量是否与被估参数尽量接近,最好是等于被估参数.于是有无偏估计量的概念.定义8.3 设12ˆˆ(,,...,)n X X X q q =是未知参数的估计量,若对任意q 蜵有ˆ()E q q =,则称12ˆ(,,...,)nX X X q 是q 的无偏估计量. 例8.6 设12(,,...,)n X X X 是来自总体X 的样本,作为总体均值的估计有111ni i T X X n ===å, 21T X =, 311(0,1)n n i ii i i i T a X a a ===>=邋且,试证1T ,2T ,3T 都是无偏估计量.证 因为12,,...,n X X X 相互独立且服从同一分布,故有()()(1,2,,)i E X E X i n ==由数学期望的性质知111()()()ni i E T E X E X n ===å21()()()E T E X E X ==311()()()()()n n i i i i i E T a E X E X a E X =====邋因此1T ,2T ,3T 都是无偏估计量.由此可见一个未知数可以有多个不同的无偏估计量.例8.7 设总体的方差()D X 存在,试证样本二阶中心矩2B 是总体方差()D X 的有偏估计,而样本方差2S 是总体方差()D X 的无偏估计.证明22221111()[(-)][-()]n n i i i i E B E X X E X X n n====邋222211()-[()]()-[()]n i i E X E X E X E X n ===å22()[()]-()-[()]D X E X D X E X =+1-1()-()()n D X D X D X n n== 所以2B 是总体方差()D X 的有偏估计.而 22211(-)-1-1n ii n S X X B n n ===å 所以 222-1()()()()()-1-1-1n n n n E S E B E B D X D X n n n n==== 即而样本方差2S 是总体方差()D X 的无偏估计.二、有效性由例8.6可以看出一个参数的无偏估计量不是唯一的,假若参数q 有两个无偏估计量1ˆq 和2ˆq ,我们认为其观测值更密集在参数q 真值附近的一个较为理想.由于方差是随机变量取值与其数学期望的偏离程度的度量,所以无偏估计以方差小者为好.这就引出了评价估计量好坏的另一标准——有效性.定义8.4 设1112ˆˆ(,,...,)n X X X q q =和2212ˆ(,,...,)n X X X q q =都是q 的无偏估计量,若对q "蜵,有12ˆˆ()()D D q q £,且至少有一个q 蜵使不等式严格成立,则称1ˆq 比2ˆq 更有效.例8.8 在本节例8.6中,设总体X 的方差()D X 存在,试问1T ,2T ,3T 哪一个更有效? 解 11()()D T D X n=2()()D T D X = 2311()()()()ni i D T D X a D X n==?å注意,此处利用了不等式222111()n nni i iii i i a b ab ===7邋?得到了211ni i a n=³å所以1T 是三个估计量中最有效的估计量.三、一致性无偏性和有效性都是针对无偏估计而言的,且都是在样本容量固定的前提下提出的.我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值.这样,对一个好的估计量又有下面一致性的要求.定义8.4 设12ˆˆ(,,...,)nX X X q q =是q 的估计量,若对于任意q 蜵,满足对任意0e >X ,有ˆlim {-}1nP qq e <=,则称ˆq 是q 的一致估计量. 一致估计量的意义在于:只要样本容量足够大,就可以使一致估计量与参数真实值之间的差异大于eX 的概率足够地小,也就是估计量可以用任意接近于1的概率把参数真实值估计到任意的精度.一致性是点估计的大样本性质,这种性质是针对样本容量n ??而言,对于一个固定的样本容量n ,一致性是无意义的.与此相对,无偏性和有效性的概念是对固定的样本而言,不需要样本容量趋于无穷,这种性质也称为“小样本性质”.习题8-2A 组1.设总体X 的k 阶矩()kk E X m =存在,12(,,...,)n X X X 是来自总体X 的样本,证明:不管X 服从什么分布,11n kk i i A X n ==å是k m 的无偏估计量.2.设总体X 的密度函数为-1,0(,)00,x e x f x x q q q qìï>ï=>íï£ïî为常数12(,,...,)n X X X 是来自总体X 的样本.证明:样本均值X 是q 的无偏估计量.3.设ˆq是q 的无偏估计,且有ˆ()0D q >.证明:2ˆq 不是2q 的无偏估计. 4. 12(,,...,)n X X X 是来自总体2~(0,)X N s 的样本,其中2s 未知,令2211ˆn i i X n s ==å,试证2ˆs 是2s 的一致估计量. B 组1. 12(,,...,)n X X X 是来自总体X 的样本,设2(),()E X D X m s ==. (1)确定常数c ,使-1211(-)n i i i cX X +=å是2s 的无偏估计量.(2)确定常数c ,使22-X cS 是2m 的无偏估计.2.设1ˆq 和2ˆq 是q 的两个独立的无偏估计量,假定12ˆˆ()2()D D q q =,求常数12,C C ,使1122ˆˆˆC C q q q =+为q 的无偏估计量,并使得ˆ()D q 达到最小. 3.设总体21~(,)X N m s ,总体22~(,)Y N m s ,设112(,,...,)n X X X 是来自总体X 的样本,212(,,...,)n Y Y Y 是来自总体Y 的样本,两样本独立. (1)求参数12-m m 的一个无偏估计.(2)证明:1222211121[(-)(-)]-2n n wi i i i S X X Y Y n n ===++邋是2s 的无偏估计. 4. 设112(,,...,)n X X X 是来自均匀总体(0,)U q 的样本,证明q 的最大似然估计满足一致性要求.第三节 区间估计前面,我们讨论了参数的点估计,它是用样本算得的一个估计值去估计未知参数,这个估计值仅仅是未知参数的一个近似值,但其精度如何点估计本身不能回答.实际中,度量一个点估计的精度的最直观的方法是给出一个未知参数的一个区间,这就是我们常常用到的参数的另一种估计形式:区间估计.如估计某人的身高在1.70~1.72之间,估计,某项费用在1000 ~1400之间等等.一、区间估计问题定义8.5 设总体X 的分布中含有一个未知参数q ,12(,,,)n X X X q 和12(,,X X qn ,X )由样本12(,,,)n X X X 确定的两个统计量.对给定的(01)a a <<,如果对参数q的任何值,都有{}1-P q q q a <<?则称随机区间(,)q q 为参数q 的置信水平为1-a 的置信区间,,q q 分别称为q 的双侧置信区间的置信下限和置信上限,1-a 称为置信水平或置信度.当X 为连续型随机变量时,对于给定的(01)a a <<,我们总是可以按要求给出随机区间(,)q q ,使得{}1-P q q q a <<=.而当X 为离散型随机变量时,对于给定(01)a a <<,常常找不到区间(,)q q ,使得{}P q q q <<恰好为1-a .此时我们去找区间(,)q q ,使得{}P q q q <<至少为1-a ,且尽可能的接近1-a .置信区间的含义:若反复抽样多次(各次的样本容量相等,均为n ),每一组样本值确定一个区间(,)q q ,每个这样的区间要么包含q 的真值,要么不包含q 的真值.按伯努利大数定理,在这么多的区间中,包含q 真值的约占100(1-α)%,不包含q 真值的约仅占100%a .例如:若0.01a =,反复抽样1000次,则得到的1000个区间中,不包含q 真值的约为10个.在对参数q 作区间估计时,常提出以下两个要求:(1)可信度高,即随机区间(,)q q 要以很大的概率包含真值q ;(2)估计精度高,即要求区间的长度尽可能的小.而这两个要求往往是矛盾的,区间估计的理论和方法的基本问题就是在已有的样本信息下,找出较好的估计方法,以尽量提高可信度和精度.奈曼提出的原则是:先保证可信度,在这个前提下尽量提高精度.例8.9 设总体2~(,)X N m s ,2s 已知,m 未知,12(,,,)n X X X 是来自总体的样本,求m 的置信水平为1-a 的置信区间.解 我们知道样本均值X 是总体均值m 的无偏估计量,X 的取值大部分集中于m 附近,显然以很大概率包含m 的区间也应包含X ,因此,我们从X 出发,构造m 的置信区间.又因为~(0,1)X N 8.1 所以2}1-P u a a <= 即22{-1-P X u X u aam a <<+=其中2u a 是标准正态分布的上侧2a分位点(如图8.1),这样我们得到了m 的置信水平为1-a 的置信区间22(-X u X u aa+. 8.2图8.1由此,我们给出求未知参数q 的置信区间的具体做法如下:(1)寻找一个样本12(,,,)n X X X 和q 的函数12(,,,;)n W W X X X q =,使得W 的分布不依赖于q 和其他未知参数,称具有这种性质的函数W 为枢轴量.(2)对于给定的置信水平1-a ,定出两个常数,a b 使得12{(,,,;)}1-n P a W X X X b q a <<=. 将 12(,,,;)n a W X X X b q <<变形为 1212(,,,)(,,,)n n X X X X X X q q q <<,(,)q q 即是q 的置信水平为1-a 的置信区间.需要注意的是,置信水平为1-a 的置信区间并不是唯一的.如例8.9中,如果取1-a =0.95即0.05a =,查表可得0.02521.96u u a ==.于是,我们得到一个置信水平为0.95的置信区间(X X +. 8.3事实上,对于任意给定的1221,(01)a a a a <<<,只要210.05a a a +==,记相应的上侧1a 和2a 分位点分别为12,u u a a ,则所确定的区间21(-X u X u a a +都是m 的置信水平为95%的置信区间.例如120.03,0.02a a ==,得置信区间为(-X X + . 8.4那么在众多的区间中,我们应该使用哪一个呢?注意到置信水平相同的区间的长度往往是不同的,例如区间8.3的长度为2?,区间8.4的长度为(1.88+=,根据我们对置信区间的要求,我们应该在置信水平一定的前提下,选取区间长度最短的那一个区间.二、单个正态总体的区间估计由于我们遇到的很多总体都是服从或是近似服从正态分布的,且很多统计量的极限分布也是正态分布,因此,我们专门介绍正态总体2(,)N m s中的参数m和2s的区间估计.设已给定置信水平1-a,12(,,,)nX X X是来自总体2(,)N m s的样本.X和2S分别是样本均值和样本方差.1.均值m的区间估计(1)2s已知时,由本节例1X已得到m的一个置信水平为1-a的置信区间为22(-X u X ua a+. 8.5例8.10 对50名大学生的午餐费进行调查,得样本均值为4.10元,假如总体的标准差为1.75元,求大学生的午餐费m的置信水平为0.95的置信区间.解m的置信区间为22(-X u X ua a+,0.05a=,0.02521.96u ua==, 1.75s=, 50n=, 4.1x=.由8.5式得m的置信水平为0.95的置信区间为(3.61,4.59).(2)2s未知时,此时不能用8.2式给出的区间,因为其中含有未知参数s.考虑到2S是2s的无偏估计量,因此将8.1式中的s换成S有抽样分布定理知~(-1)Xt n. 8.6X作为枢轴量可得(参见图8.2)图8.222{-(-1)(-1)}1-X P t n t n a a a <= 即22{-((1-P X t n X t n a a m a <<+=于是得到m 的一个置信水平为1-a 的置信区间为22(-((X t n X t n a a +. 8.7例8.11 为估计一物体的重量m ,用天平秤了5次,得结果(克): 5.52, 5.48, 5.64, 5.51, 5.43.假定测量值是正态的,求m 的一个置信水平为0.95的置信区间.解 由已知 5.516,0.07765X S ==0.05a =,0.0252(4)(4) 2.7764t t a ==所以由8.7式得m 的一个置信水平为0.95的置信区间为22(-(((5.420,5.612)X t n X t n a a +=.2. 方差2s 的区间估计根据实际问题的需要,只介绍m 未知的情况.2S 是2s 的无偏估计量,因此有抽样分布定理知222(-1)~(-1)n S n c s. 8.8 取22(-1)n S s 作为枢轴量,即得(参见图8.3)图8.3222221-2(-1){(-1)(-1)}1-n S P n n aac c a s<<= 即 2222221-2(-1)(-1){}1-(-1)(-1)n S n S P n n a a s a c c <<=. 这就得到方差2s 的一个置信水平为1-a 的置信区间为222221-2(-1)(-1),(-1)(-1)n S n S n n a ac c 骣琪琪琪桫. 例8.12从某厂生产的滚珠中随机抽取10个,测得滚珠的直径(单位:mm )如下:14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8若滚珠直径服从正态分布2(,)N m s ,若m 未知,求滚珠直径方差2s 的置信水平为95%的置信区间.解 m 未知,计算样本方差20.0373S =,置信水平1-0.95a =,0.05a =,自由度-19n =,查表可得22/20.025(-1)(9)19.0n a c c ==,221-α/20.975χ(n -1)=χ(9)=2.70.则方差2s 的置信水平为95%的置信区间为2222/21-/2(-1)(-1)90.037390.0373, , 19.0 2.70(-1)(-1)n S n S n n a a c c 骣骣创琪琪=琪琪桫桫即(0.0177,0.1243).三、两个正态总体的区间估计在实际中常遇到下面的问题:已知产品的某一质量指标服从正态分布,但由于原料、设备条件、工艺过程的改变等因素,引起总体均值、总体方差有所改变.我们需要知道这些变化有多大,这就需要考虑两个正态总体均值差或方差比的估计.设112(,,,)n X X X 与212(,,,)n Y Y Y 分别来自于两个相互独立的正态总体211(,)N m sα和222(,)N m s 的样本,22,,,X Y X Y S S 分别是两个样本的均值和方差,给定置信水平1-(01)a a <<.1.两个总体均值12-m m 的区间估计 (1)21s 和22s 均已知因为X ,Y 分别为1m 和2m 的无偏估计,故-X Y 是12-m m 的无偏估计.由于2111~(,)X N n s m ,2222~(,)Y N n s m ,且X 和Y 相互独立, 所以22121212-~(-,)X Y N n n s s m m + 继而~(0,1)X Y U N =取U 为枢轴量,即得到12-m m 的一个置信水平为1-(01)a a <<的置信区间为--,-X Y u X Y u a a 骣琪+琪琪桫8.9 (2) 22212s s s ==,2s 未知.由上一章抽样分布定理知12~(-2)X Y T t n n =+()其中 2221212(-1)(-1).-2X Ywn S n S S n n +=+取T 为枢轴量,可得12-m m 的一个置信水平为1-(01)a a <<的置信区间/212/212--(-2)-(-2)X Y t n n S X Y t n n S a a 骣琪+++琪桫8.10例8.13某工厂一条生产灯泡的流水线,在工艺改变前后分别抽检若干件产品的寿命,得数据为改变前:216,1364,156;X n X S === 改变后:229,1407,172.Y n Y S ===假定灯泡寿命服从正态分布,且工艺改变前后方差不变,试求工艺改变前后平均寿命之差的置信度为95%的置信区间.解12.88,w S === 0.05,a =/2(13) 2.16,t a = -43,Y X= 2.1612.8814.7,创= 所以由8.10式得12-m m 的一个置信水平为0.95的置信区间为/2-(13)(43-14.7 , 4314.7)(28.3 , 57.3).Y X t S a 骣琪?=+=琪桫2.两个总体方差比2212s s 的区间估计我们仅讨论1m 和2m 都未知的情况,由抽样分布定理知22112222~(-1,-1)XYS F F n n S s s = 取F 为枢轴量得(如图8.4)图8.41-/212/212{(-1,-1)(-1,-1)}1-P F n n F F n n a a a <<=即 2221222/2121-/212211 1-α(-1,-1)(-1,-1)X X Y Y S S P F n n F n n S S a a s s 禳镲<<=睚镲铪于是得到2212s s 的一个置信水平为1-(01)a a <<的置信区间α2222/2121-/21211,(-1,-1)(-1,-1)XX Y YS S F n n F n n S S a a 骣琪琪桫.例8.14两个相互独立的正态总体21~(,)X N m s ,22~(,)Y N m s ,各取样本,125n =,212.7XS =,220n =,210.8YS =,求 2122s s 的置信度为95% 的置信区间 .解 2122s s 的置信区间为2222/2121-/21211,(0.347 , 2.737).(-1,-1)(-1,-1)X X Y YS S F n n F n n S S a a 骣琪=琪桫习题8-3A 组1.设某种油漆的9个样品,其干燥时间(以h 为单位)分别为: 6.0 5.7 5.8 6.5 7.0 6.3 5.6 6.1 5.0 设干燥时间总体服从正态分布2(,)N m s .(1)若由以往经验0.6()h s =,求m 的置信水平为0.95的置信区间; (2)若s 未知,求m 的置信水平为0.95的置信区间.2. 用两种工艺(或原料)A 和B 生产同一种橡胶制品.为比较两种工艺下产品的耐磨性,从两种工艺的产品中各随意抽取了若干件,测得如下数据: 工艺 A :185.82, 175.10, 217.30, 213.86, 198.40工艺 B :152.10, 139.89, 121.50, 129.96, 154.82, 165.60 假设两种工艺下产品的耐磨性X 和Y 都服从正态分布:2~(,),x X N a s 2~(,),y Y N b s(1)建立xy ss 的置信度为0.95置信区间;(2)建立-a b 的置信度为0.95置信区间.3.设某自动包装机包装洗衣粉,其重量服从正态分布,随机抽查12袋,测得重量分别为:1001 1004 1003 997 999 1000 1004 1000 996 1002 998 999求这批洗衣粉重量方差和标准差的置信区间(0.05a =).4.某大学从A 、B 两市招收的新生中分别抽5名、6名男生,测得身高值如下: A 市:172 178 180.5 174 175B 市:174 171 176.5 168 172.5 170设两市学生身高分别服从2212(,),(,)N N m s m s .求12-m m 的置信水平为0.95的置信区间.5. 为比较Ⅰ,Ⅱ两种型号步枪子弹的枪口速度,随机的取Ⅰ型号子弹10发,得到枪口速度的平均值为1500/x m s =,标准差为1 1.10/s m s =;随机的取Ⅱ型号子弹20发,得到枪口速度的平均值为2496/x m s =,标准差为2 1.20/s m s =.假设两总体都可认为近似的服从正态分布,且方差相等.求两总体均值差12-m m 的一个置信水平为0.95的置信区间. B 组1.一次等级考试,因急于评估试卷质量,教师先随机抽取36份试卷批改,平均分为72分,标准差13.2分,系主任要求在90%的可信度下,对全体考生的平均成绩做一个区间估计.2.某公司要对下一年职工医疗费情况作个预算,通常医疗费的标准差为120元.现要求在95%的置信度下,保证所估计的总体平均值在加减40元的范围内.问应该取多大的样本?3.假定吸烟者买烟的月支付近似服从正态分布,一机构随机抽取了容量为26的样本进行调查,得到样本平均值为80元,样本标准差为20元.试以95%的把握估计全部吸烟者月平均烟钱支出的置信区间.4.随机地从A 批导线中抽4根,又从B 批导线中抽5根,测得电阻值为: A 批导线:0.143 0.142 0.143 0137B 批导线:0.140 0.142 0.136 0.138 0.140设测定数据分别来自分布221122(,),(,)N N m s m s ,且样本相互独立.12,m m 均未知, (1)22212s s s ==未知时,求 12-m m 的一个置信水平为0.95的置信区间.(2) 求方差比2212s s 的置信水平为0.95的置信区间.第四节 单侧置信区间前面介绍的置信区间中置信限都是双侧的,但在有些实际问题,人们所关心的只是参数在一个方向的界限.例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.这时,可将置信上限取为 +∞,而只着眼于置信下限,这样求得的置信区间称为单侧置信区间.定义8.6 给定(01)a a <<,若有样本12(,,,)n X X X 确定的统计12(,,X X q q =,)n X ,对于任意q 蜵满足{}1-P q q a >?称随机区间(,)q +?是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信下限.又若统计量q q =12(,,,)n X X X ,对于任意q 蜵满足{}1-P q q a <?称随机区间(-,)q ¥是q 的置信水平为1-a 的单侧置信区间,q 称为q 的置信水平为1-a 的单侧置信上限.例8.15 设总体2~(,)X N m s ,2,m s 均未知,设12(,,,)n X X X 是来自总体的样本.试求m 和2s 的置信度为1-a 的单侧置信区间.解 由~(-1)X t n 有(-1)}1-X P t n a a <= 即{-(-1)}1-P X n a m a >=于是得到m 的置信度为1-a 的单侧置信区间(-(-1),)X n a +?.m 的置信度为1-a 的单侧置信下限为-(-1)X n a m =.又由222(-1)~(-1)n S n c s 有 221-2(-1){(-1)}1-n S P n a c a s>= 即 2221-(-1){}1-(-1)n S P n a s a c <=于是得到2s 的置信水平为1-a 的单侧置信区间221-(-1)(0,)(-1)n S n a c . 2s 的置信水平为1-a 的单侧置信上限为2221-(-1)(-1)n S n a sc =. 习题8-4A 组1.设有某部门对所属区域的职工家庭人均月收入进行调查,现抽取20个家庭,所得的月平均收入234.7X =(元),21590.85S =,试以95%的置信度估计该区域职工家庭人均月收入的最低下限为多少?2.从汽车轮胎厂生产的某种轮胎中抽取10个样品进行磨损实验,直到轮胎行驶的磨坏为止,测得他们的行驶路程(千米)如下:41250, 41010, 42650, 38970, 40200 42550, 43500, 40400, 41870, 39800. 设汽车轮胎行驶路程服从正态分布2(,)N m s . 求:m 的置信水平为95%的单侧置信下限.3.设两位化验员A 、B 独立的对某种聚合物含氯量用相同的方法各做10次测定,其测定值的方差分别为20.5419A S =,20.6065B S =.设2A s ,2B s 分别为A 、B 所测定的测定值总体的方差,设总体均为正态分布,且两样本独立.求方差比22A B s s 的置信水平为0.95的单侧置信上限. B 组1. 设总体X 服从指数分布,其密度函数为-1,0()0,xe xf x q q ìï>ï=íïïî其他 其中0q >未知.从总体中抽取一容量为n 的样本12(,,,)n X X X .若已知22~(2)nXn c q. (1)求q 的置信水平为1-a 的单侧置信下限;(2)某种元件的寿命(以小时计算)服从上述指数分布,现从中抽得以容量为16的样本,测得样本均值为5010(h ),试求元件的平均寿命的置信水平为0.90的单侧置信下限.2. 松江A 、B 两所大学某学期期末高等数学考试采用同一套题目,A校认为该校学生高数考试成绩比B校学生成绩高10分以上。

参数估计方法

参数估计方法

1 n
n (yi
i 1
y)k 。
对于总体y1,y2,…yN,各观测值的k次方的平均值,称为
总体的k阶原点矩,记为 E( y k ),有 E( yk )
1 N
N i 1
yik
;用观测
值减去平均数得到的离均差的k次方的平均数称为总体的k阶
中心矩,记为 E[(y )k ]或 k ,有 E[(y )k ]
(8·2)
其中f(y)为随机变量y的概率密度函数,这样可以求得总 体均值。
用D(y)表示方差,有
D(y)=E [y-E(y)]2
(8·3)
这就是随机变量函数的数学期望。同理,离散型随机 变量方差的数学期望为:
D(
y)
yi
E( y) 2 pi
(8·4)
i 1
连续型随机变量方差的数学期望为:
D( y) y E( y)2 f( y)dy
第八章 参数估计方法
第一节 农业科学中的主要参数及其估计量的评选标准 第二节 矩法 第三节 最小二乘法 第四节 极大似然法
第一节 农业科学中的主要参数及其估计量的评选标准
一、农业科学中的主要参数
农业科学研究中需要估计的参数是多种多样的,主要包括: (1)总体数量特征值参数,例如,用平均数来估计品种的产
(二) 参数估计量的评选标准 评价估计量优劣的标准主要有无偏性、有效性、相合性等
(1) 无偏性 参数估计量的期望值与参数真值是相等的,这 种性质称为无偏性,具有无偏性的估计量称为无偏估计量。 例如,在抽样分布中已经介绍了离均差平方和除以自由度得 到的均方的平均数等于总体方差,即该均方的数学期望等于 相应总体参数方差,这就是说该均方估计量是无偏的。
首先,计算样本的2、3、4阶中心矩 ˆ 2,ˆ3,ˆ 4,以及标 准差估计值:

第8章参数估计习题解答

第8章参数估计习题解答

∑ ( xi − µ )2
i =1
n
.
23.
设( ( X 1 , X 2 , L , X n ) )是抽自总体 X : N ( µ , σ ) 的随机样本, a , b 为常数,且
2
0<a<b , 则 随 机 区 间 ⎜
nσ 2 nσ 2 − a b
( X i − µ )2 n ( X i − µ )2 ⎞ ⎟ 的长度的数学期望为 ∑ b ,∑ a i =1 ⎝ i =1 ⎠ ⎛
i =1 i =1
.
22. 设 X 1 , X 2 ,L , X n 是来自总体 X 数 L( µ , σ ) =
2
− 1 e ∏ 2π i =1 σ n ( xi − µ )2 2σ
2
N ( µ , σ 2 ) 的样本,则有关于 µ 及 σ 2 的似然函
− n 2 − n 2 − 1 2σ
2
= (2π ) (σ 2 ) e
的分布函数 Φ ( x ) 的函数值:Φ (1.645) = 0.95 ,Φ (1.96) = 0.975 ,Φ (1.282) = 0.90 .则在 显著水平 α = 0.05 , E ( X ) 的置信区间为( A ).
A. (1.216, 2.784) .
B. (1.342,
2.658) .
C. (1.4872,
ˆ = 2X . D. θ 4
7.
设总体 X 的密度函数为 P ( x,
⎧θx θ −1 0 < x < 1 , θ > 0 , ( X 1 , X 2 ,L , X n ) θ) = ⎨ ⎩o 其它
为样本,记 Ak =
1 n k ∑ X i , k = 1,2.3 ,则以下结论中错误的是( A ). n i =1

08.1参数的矩估计方法

08.1参数的矩估计方法


1(1,2 ,L ,k ) B1
2 (1,2 ,L ,k ) B2
LLLLLL
k (1,2 ,L ,k ) Bk
解得µl $l (B1, B2,L , Bk ),l 1, 2,L , k,并以$l作为参数l的
估计量,这种估计量称为矩估计量,矩估 计量的观察值就是矩估计值。
或者
Cl
矩估计法的理论依据: 大数定律
∵ X1, X2 , , Xn 是独立同分布的,
∴ X1k, X2k, , Xnk 也是独立同分布的.
于是有 E(X1k)=E(X2k)==E(Xnk)= E(Xk)=μk .
根据辛钦大数定律, 样本k阶矩Ak依概率收敛于总体k
阶矩μk ,即
Ak
1 n
n i 1
知参数1,2,…,k,即F=F(x;1,2,…,k), 总体X的前k 阶矩l =E(Xl )(l=1,2,…,k)存在, 它们是1,2,…,k的函数
l(1,2,…,k)(l =1,2,…,k)
假设X1,X2,…,Xn是总体X的一个样本,建 立统计量--样本l 阶原点矩Al (l=1,2,…,k),
试对参数给出估计。
1 n
E( X ) n i1 X i
一阶样本原 点矩
E(X 2)
1 n
n i 1
Xi
1 n
n i 1
Xi2
2
2
1 n
n i 1
Xi2
二阶样本原 点矩
解之得:
解之得:
)
1 n
n i 1
Xi
ˆ
2
1 n
n i 1
Xi2
(ˆ )2
从而得, 2
为: ) 1
ni

概率与数理统计初步

概率与数理统计初步

某批 灯泡的寿命
国产轿车每公里
的耗油量
该批灯泡寿命的全 体就是总体
国产轿车每公里耗油量 的全体就是总体

每一个灯泡就是个体; 从中抽取10个进行试验, 10个灯泡为样本容量.
如果Q(1,2,n )是1,2,n 的函数,而且这个函数 中不含未知参数,则称 Q(1,2,n )是一个样本统计量.
几个常见统计量
这样的方法称为区间估计,[1,2 ]称为的1置信区间
1 和 2分别称为置信下限和置信上限. 显著性水平
1. 已知方差 2 时数学期望 的区间估计
设总体服从正态分布 ~ N(, 2 )
__
考虑统计量 U
n ,可以证明 U ~ N(0,1)
对于给定的置信水平 1
P( U ) () () 2() 1 1
… 知的仅仅是一个 … 或几个参数.
1. 点估计
由于1,2,n是来自总体,而总体的分布为 N(, 2 )
因此每个样本的分布都服从 N(, 2 ) .
结论
__
E( )
1 n
n i 1
E(i )
__
x
1 n
n
i1
xi
为总体均值μ的估计值.
E(S 2 ) D( ) 2
S2
n
1
1
n
i1
(
xi
__
__
x
S
__
,x
n
S n
我们用统计量 χ2
(n
1)S 2
2
做方差的区间估计,则
χ2
的分
布称为自由度为n-1的卡方分布,记为 2 ~ 2 (n 1)
χ 2 分布密度函数下图所示

概率论与数理统计第八章

概率论与数理统计第八章

上式也可记为 PH0 {拒绝H 0}
本例中,上式应为
(x)
PH 0
X
/
0
n
u
2
/2
1
/2
u / 2 O
u / 2
x
b)第二类错误(取伪)
原假设H0事实上是假的,但是由于检验统计量的 观察值没有落在拒绝域中,从而导致接受H0.这时犯了 “取伪”的错误,即接受了错误的假设,这一类错误我
(2) 当H0不真时,作出接受H0的决策——称为第二 类错误(或称“存伪”错误)。
a)第一类错误(弃真)
原假设H0事实上是真的,但是由于检验统计量的观 察值落入拒绝域中,从而导致拒绝H0.这时犯了“弃真” 的错误,即将正确的假设摒弃了,将这一类错误称之为第
一类错误.记犯第一类错误的概率为 ,则有
PH0 {拒绝H0 H0为真}
们称之为第二类错误.记犯第二类错误的概率为 ,则
P{接受H0 | H0为假}
或者 PH1 {接受H 0} P{接受H 0 | H1为真}
在本例中,
PH1
X
/
0
n
u
2
(x)
/2
1
/2
u / 2 O
u / 2
x
可以看出假设检验中包含的两个重要的思想:
1)反证法思想
为了确定是否要拒绝原假设H0,首先是假定H0真,看
当然也不能总认为正常,有了问题不能及时 发现,这也要造成损失.
如何处理这两者的关系,假设检验面对的就 是这种矛盾.
一般可以认为X1,…,X5是取自正态总体 N (, 2 ) 的样本,当生产比较稳定时, 2 是一个常数.
现在要检验的假设是:
H0: 0( 0 = 355)

讲座-8第八章 参数估计与假设检验基础学习文档

讲座-8第八章  参数估计与假设检验基础学习文档
(见表8-1)由于个体之间的差异,每次样本平均数不大可能恰好等于该地女学 生身高的总体均数( μ =165.70cm )。这种由个体变异产生的差异称为抽样误 差(sampling error)。在抽样研究中,抽样误差是不可避免的,但怎样估计抽 样误差的大小,这是进行统计推断必须考虑的问题。
从N(165.70 , 3.212) 抽到的100份随机样本的计算结果(n=20)
Path of Statistical inference
总体
抽样
样本
估计 参数: , ,
统计推断
获取统计量
如: x, s, p
探讨成年男性肺炎患者与男性健康成年的血红蛋白(g/dl)有无区别? 在这两个人群中随机抽取各10例:
组别 肺炎 健康
1 11.9 13.9
2 10.9 14.2
3 10.1 14.0
t 分布曲线(ν=9)
① 相同自由度时,∣t∣值越大,概率P 越小; ∣t∣值越小, 概率P 越大;
② 在相同∣t∣值时,同一自由度的双侧概率是单侧概率的两 倍。
归纳:
随机变量 X
N(μ, σ2)
均数 X
N(μ ,σ2/n )
Z X
Z 变换 Z X
n
标准正态分布 N(0, 12)
用途不同: 当资料呈正态分布时,标准差与均数结合可估计参考值范围,
计算 CV 等;标准误可用于估计参数的置信区间,进行假设检验。
与样本例数关系不同: 样本量足够大时,标准差趋向于稳定,标准误随例数的增加而减小,甚至
趋近于0,若样本量趋向总例数,则标准误接近0;
二者联系: 均为变异指标,若把总体中各样本均数看作一个变量,则标准误可称为样
p

第八章 参数估计习题

第八章 参数估计习题

第八章 参数估计习题一、 填空题1.设总体),(~2σμN X ,n X X X ,,,21 是来自X 的一个样本,参数2,σμ都是未知的,则μ的矩估计量为 。

2σ的矩估计量为 。

2.设总体),(~2σμN X ,其中2σ未知,μ已知,n X X X ,,,21 是来自X 的一个样本,做样本函数如下①∑=-ni i X n 12)(1μ,②21])([∑=-ni iXσμ,③∑=-n i i X X n 12)(1,④∑=--n i iX X n 12)(11,⑤∑=+--ni i i X X n 121)()1(21,这些样本函数中,是统计量的有 。

3.假设随机变量)1,(~μξN ,n X X X ,,,21 是来自ξ的样本,如果关于置信度是0.95的μ 的置信区间是(9.02,10.98),则样本容量______=n4.设某总体X 的密度函数为⎪⎩⎪⎨⎧<<-=其他,00,)(2);(2ααααx x x f ,对容量为n 的样本,参数α的矩估计量为 。

5.假设总体)81.0,(~μξN ,n X X X ,,,21 是来自ξ的样本,测得样本均值5=x ,则置信度是0.99的μ的置信区间是6.设n X X X ,,,21 是来自总体X 的样本,对总体方差进行估计时,常用的无偏估计量是。

7.设总体X 在区间],0[θ上服从均匀分布,则未知参数θ的矩法估计量为 。

二、选择题1.设n X X X ,,,21 是来自总体X 的样本,2)(,)(σμ==x D x E ,并且和是未知参数,下面结论中是错误的[ ]。

(A )X =1ˆμ是μ的无偏估计; (B )12ˆX =μ是μ的无偏估计; (C )21ˆˆμμ比有效; (C )21)(1∑=-ni i X n μ是2σ的 极大似然估计量。

2 在区间估计中αθθθ-=<<1)ˆˆ(21P 的正确含义是[ ] (A)θ以α-1的概率落在区间)ˆ,ˆ(21θθ内; (B)θ落在区间)ˆ,ˆ(21θθ以外的概率为α; (C)θ不落在区间)ˆ,ˆ(21θθ以外的概率为α; (D)随机区间)ˆ,ˆ(21θθ包含θ的概率为α-1。

第08章--对数极大似然估计

第08章--对数极大似然估计

( yt
1
2 xt 2 2
3wt
)2
T t 1
log
( yt
1
2 xt
3wt
1 2
log(
2
)
这里, 是原则正态分布旳密度函数。
16
lt
( ,
)
log
yt
1
2 xt
3wt
1 2
log(
2)
将这一例子旳对数极大似然函数过程写成下面旳赋值语
句:
Series res=y-c(1)-c(2)*x-c(3)*w
15
下面考虑2个变量旳例子:
yt 1 2 xt 3wt ut ut ~ N (0, 2 )
这里,y, x, w 是观察序列,而 ={1, 2, 3, 2}是模型旳参数。
有T个观察值旳样本旳对数似然函数能够写成:
log
L(
,
2)
T 2
log(2
)
1 2
T t 1( y ; ψ) 0 , i =1, 2, …, n (8.1.2)
i
由上式可解得 n1 向量 旳极大似然估计值 ψˆ,而式(8.1.2)
也被称为似然函数。
6
因为 L(y ; ) 与 ln[L(y ; ))] 在同一点处取极值,所
以也能够由
ln L( y ; ψ) 0 , i =1, 2, …, n (8.1.3)
而对数极大似然措施使得寻找这些极大似然估计变 得轻易了。只需创建一种对数似然对象,把上面旳赋值 语句输入到logL旳阐明窗口,然后让EViews来估计这个 模型。
20
在输入赋值语句时,只需对上面旳文本做两处微小旳 改动就能够了。首先,把每行开头旳关键字series删掉(因 为似然阐明暗含了假定序列是目前旳)。第二,必须在阐 明中加入额外旳一行(关键字@logL为包括似然贡献旳序 列命名)。

参数估计

参数估计

第九章参数估计抽样的真正目的在于根据已知的统计量来估计总体参数。

检验特定假设有一定用处,但估计方法的用处更大。

基本上有两种估计,即点估计和区间估计。

第一节点估计点估计也即点值估计,是以一个最适当的样本统计值来代表总体参数值。

为了确定每一种估计究竟如何,就必须掌握某种标准。

估计量如果具有无偏性、一致性和有效性这三个要求或标准,就可以认为这种统计量是总体参数的合理估计或最佳估计。

1.无偏性如果统计量的抽样分布的均值恰好等于被估计的参数之值,那么这一估计便可以认为是无偏估计。

换句话说,从最终的结果来看,估计量的期望值就是参数本身。

2.一致性虽然随机样本和总体之间存在一定的误差,但当样本容量逐渐增加时,统计量越来越接近总体参数,满足这种情况,我们就说该统计量对总体参数是一个一致的估计量。

3.有效性估计量的有效性指统计量的抽样分布集中在真实参数周围的程度。

总而言之,如果一个估计量满足无偏性、一致性和有效性这三条准则,就可称其为最佳估计量。

第二节区间估计如果总体均值正好就是样本的均值,这当然非常好。

但如果两者不尽相同,点估计往往会造成一些不必要的误解。

在许多场合,人们宁愿在原来点估计值两边加一个区间,使得我们对参数在预料之中有相当把握。

因此在推论统计中我们更多采用的是区间估计的方法。

所谓区间估计,就是在一定的抽样平均误差内设一个可置信的区间,然后联系到这个区间的精度,将样本的统计值推断为总体的参数值。

1.精确性和可靠性区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增加。

当然,设置一个区间是很容易的,当我们对参数被估计到的信心不足时,我们总可以放宽区间。

如果这个区间的大小不受限制,我们就可以把参数被估计到的信心提高到任何水平。

但是区间加大,估计的效度随之降低。

当我们的信心提高到绝对时,估计的价值也随之丧失贻尽。

这就是说,还存在需要考虑的另一方面——区间估计的精确性问题。

这样一来,我们又宁愿估计区间要尽量小一点,最好就是点估计。

参数估计的一般步骤

参数估计的一般步骤

参数估计的一般步骤
参数估计是通过从总体中抽取一个样本,利用样本数据对总体未知参数进行估计的过程。

参数估计的一般步骤如下:
1. 确定总体参数:首先需要明确要估计的总体参数,例如总体均值、总体比例、总体方差等。

2. 选择样本:从总体中抽取一个合适的样本。

样本的选择应该具有代表性,能够反映总体的特征。

3. 收集样本数据:对选择的样本进行观测或测量,收集样本数据。

4. 选择估计方法:根据所收集的样本数据和要估计的总体参数,选择合适的估计方法。

常见的估计方法包括点估计和区间估计。

5. 计算估计量:使用所选择的估计方法,根据样本数据计算出估计量。

估计量是用于估计总体参数的统计量。

6. 评估估计量的性质:评估所计算出的估计量的性质,如无偏性、有效性、一致性等。

这些性质可以帮助判断估计量的优劣。

7. 计算置信区间或置信水平:如果进行的是区间估计,根据估计量和置信水平,计算出总体参数的置信区间。

8. 解释估计结果:根据估计量或置信区间,对总体参数进行推断和解释。

同时,需要考虑估计结果的统计显著性和实际意义。

9. 分析误差和不确定性:考虑样本大小、抽样方法等因素对估计结果的影响,分析可能存在的误差和不确定性。

10. 结论和应用:根据参数估计的结果,得出结论并将其应用于实际问题中,例如进行决策、预测或进一步的研究。

需要注意的是,参数估计的具体步骤和方法会根据不同的统计问题和数据类型而有所差异。

在进行参数估计时,应根据实际情况选择合适的方法,并结合统计学原理和专业知识进行分析和解释。

第八章 参数估计一

第八章 参数估计一
第八章 参数估计
参数是刻画总体某方面概率特性的数.当这 些参数未知时,从总体抽出一个子样,用某种方 法对这些未知参数进行估计就是参数估计.
通过样本对总体未知参数进行估计
例:X ~N (? ,? 2), 若? , ? 2未知, 通过构造样本的函数, 给出
它们的估计值或取值范围就是参数估计 的内容. 点估计 区间估计
解: 由 P(X ? 4) ? ? (4? ? ) ? 21? 0.75
2 28 查表得 4 ? ? ? 0.675
2
于是 ? 的估计值为 ?? ? 3.045
? 矩法估计
原理: 用样本矩代替总体矩 (依据大数定律)
X~
Sn2 ~
? Aj
?
1 n
n i?1
Xi j

E(X )
Var ( X )
E(X j)
i?1
?
X )2
?
S
2 n
一般, 不论总体服从什么分布, 总体期望 ? 与方差? 2 存在, 则它们的矩估计量分别为
? ?? ?
1 n
n i?1
Xi
?
X
? ? ? 2
?
1 n
n
(Xi
i?1
?
X )2
?
Sn2
例: 设从某灯泡厂某天生产的灯泡中随机抽取 10只灯泡,测
得其寿命为 (单位: 小时)
1050, 1100, 1080, 1120, 1200
?E(X ) ? ?
解:
??E( X 2 ) ? Var (X ) ? (E( X ))2 ? ? 2 ? ? 2
? 用X
替换 E( X ),用
A2
?
1 n

第八章(第一节矩估计法)

第八章(第一节矩估计法)


1
n
n i1
Xi
替换 E
X

即得 的另一矩估计量为
. ^
1 n
n i 1
Xi
此外还需比较估计的优劣性,
这一点将在下一节将会介绍,这里
不再多说。
为了对参数 和 2 进行估计,
我们从总体中抽取样本 X , X ,, X
1
2
n
(对于一次具体的抽取,他就是具
体的数值 x , x ,, x ,在不致引起混淆
1
2
n
的情况下,今后也用 x , x ,, x 表示随
1
2
n
机变量),根据样本矩在一定程度上
反映了总体矩的特征,自然想到用
样本矩作为总体矩的估计。
解由
x 1 (12.6 13.4 12.8 13.2) 13 ,
4
s 2 1 [(12.6 13)2 (13.4 13)2 (12.8 13)2 (13.2 13)2 ] 0.133 4 1
得 和 2的估计值分别为 13(mm)和
0.133(mm)2 。
例3 设总体 X 的概率密度为
就完全确定了。例如,总体
X ~ N(, 2),但不知道其中参数
和 2的具体数值,我们要想法确定 参数 , 2 。
为了寻求总体的这些参数的值,
我们可对总体进行调查,很自然的
会想到用从总体 X 中抽取得的样本
值 x , x ,, x ,对总体中的未知参数作
1
2
n
出来估计,这类问题就是参数估计。
参数估计主要有参数的点估计 和参数的区间估计。
例 1 某灯泡厂生产一批灯泡,
由于随机因素的影响,每个灯泡的

参数估计的特点

参数估计的特点

二、总体比例区间估计
p z
2
(1 )
n


p
z
2
(1 )
n
p z
2
p(1 n
p)
(1
n) N


p

z
2
p(1 p) (1 n )
n
N
【例8-8】在4000件成品中按不重复方 法抽取200件进行检查结果有废品8件, 当概率保证为0.9545时,试估计这批成 品废品量的范围。
灯泡检验
参数估计的特点
(1)遵循随机原则。这是抽样与其他非全面调查如重点 调查、典型调查的主要区别之一。(2)用部分数据推断 和估计总体的参数。(3)参数估计必然产生误差。这个 误差,不但事前可以计算,而且可以采取措施使其控制在 一定范围,从而使得估计达到一定的可靠程度
二、参数估计的方法
参数估计主要分点估计和区间估计两种
112.5 102.6
100 116.6 136.8
101 107.5 123.5 95.4 102.8
103 95 102 97.8 101.5
102 108.8 101.6 108.6 98.4
100.5 115.6 102.2
105 93.3
正态分布方差未知小样本
x t
2
x t
2
三、总体方差区间估计
本章只讨论正态总体方差的估计情况。 根据样本方差的抽样分布可知,样本方 差服从自由度n-1的卡方分布
(n 1)s 2 2 (n 1)s 2
2 1

2

2
2
【例8-11】某车间工人加工零件,现抽 取50人调查,样本均值为21件,样本标 准差为2件,计算总体标准差90%的置信 区间
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
$ $ $ $ P(θ1 < θ < θ2 )不是θ落在区间(θ1 , θ2 )的概率。 $ θ 而是随机区间(θ1,$ 2 )包含θ的概率。
即平均100次抽样计算得到的100个区间中,约有 (1-α)× 100个区间包含θ $ $ 区间(θ1 , θ2 )不包含θ的可能性不超过α
即平均1 α 次估计中至多会有一次犯错误。 $ 一般说来, 1 , θ2 )的区间长度越小(越精确), (θ $
例2 用矩法估计事件发生的概率p
ξ 0 1 解: P 1 p p Eξ = p
若X1 ,..., X n为一组样本,则
m 1 n $=X= = p ∑ Xi n n i=1
其中m = ∑ X i表示重复试验中事件发生次数。
i =1 n
即可用事件发生的频率来估计概率。
例3 设总体ξ服从[a, b]上的均匀分布,用矩法 估计a与b
例2 若已知某天某车间生产的灯泡寿命服从正态分 布N(,8), 抽取10只灯泡,平均寿命为1147小时,求出 灯泡平均寿命的置信区间(α=0.05)
解:α=0.05, u α = 1.96 n=10 σ= 8
x = 1147
8 8 置信区间为1147 1.96, + 1147 1.96 10 10
例9 已知ξ服从正态分布N(, σ2 ),(x1,...,xn ) 为ξ的一组样本观察值,用最大似然法估计, σ2的值。
解:L = ∏
i =1 n
1 2π σ
n
2
e
(x i )2 2 σ2
1 1 i =1 = σ2 e 2π n 1 n ln L = n ln 2π ln σ 2 2 ∑ (x i ) 2 2 2σ i=1
0 < x <1 其它
α +1 解:Eξ = ∫ x (α + 1)x dx = 0 α+2 α +1 +1 令 =X α+2
1 α
2X 1 解得 α= 1 X 矩估计的优点:直接、简便 缺点:未充分利用分布信息
(二)最大似然法 两人射击,一人打中,一人没打中,认为打中者 技术较好。
某事件发生的概率为0.01或0.1,若一次试验中该 事件发生了,认为其概率为0.1 例5 在一个袋中有许多黑球与白球,其数量比为1: 3 或3: 1,通过抽样判断黑球多还是白球多。
例6 用最大似然法估计事件发生的概率p
ξ 0 1 解: P 1 p p
P(ξ = k) = p k (1 p)1k k = 0,1
若x1 ,..., x n为一组样本观察值
L(p) = ∏ P(ξ = x i ) = ∏ p xi (1 p)1xi
i =1
n
n
i =1 n
= p i=1 (1 p)
n 2
1 2 2σ
∑ (xi )2
nLeabharlann 分别对与σ 2求偏导,得ln L 1 n = 2 ∑ (x i ) =0 σ i=1 ln L n 1 n = 2 + 4 ∑ (x i ) 2 =0 σ 2 2σ 2σ i=1
求解可得
1 n $ = ∑ xi = x n i=1
1 n 1 n $ $ σ = ∑ (x i ) 2 = ∑ (x i x) 2 n i=1 n i=1
解:有放回地抽取3个球, 若取到0个或1个白球,认为袋中黑球多。 若取到2个或3个白球,认为袋中白球多。
用ξ表示取到的白球个数 若白球占1 4,则ξ的分布为
ξ P 0 1 2 3 27 27 9 1 64 64 64 64 若白球占 3 4,则ξ的分布为
ξ 0 1 2 3 1 9 27 27 P 64 64 64 64 可见,当ξ=0或1时,认为白球占1 4 当ξ=2或3时,认为白球占 3 4 即选择使观察结果概率较大的参数。
X 而 U = < u α可改写为 σ n
α = 0.01时 , u α = 2.58
σ σ X uα < < X + uα n n σ σ 即 P X uα < < X + uα = 1 α n n 故的置信度为1 α的置信区间为 σ σ uα , X + uα X n n 2σ 区间长度为 uα n 要提高精度,需要增大样本容量n α 或减少u α ,即降低1- , 也就是降低1 α 2
i =1 n
其中θ是未知参数,可以是一个值,也可以是向量。
若ξ是连续型随机变量,
ξ (x, θ)
n
则应将概率改为
L(x1 ,..., x n , θ) = ∏ (x i , θ)
i =1
称L为样本的似然函数
若θ是向量,则L是多元函数。 $ 定义1 如果L(x ,...,x ,θ)在θ处达到最大值,
1 xi θ i=1
n
1 n ln L = n ln θ ∑ x i θ i=1 n 1 n (ln L) ' = + 2 ∑ x i =0 θ θ i=1
求解得到最大似然估计为
1 n $ θ = ∑ xi = x n i=1 1 而 x = (16 + 29 + ... + 800 + 1100 ) ≈ 318 18 $ 故 θ=318
即(1145.25,1148.75 )
此区间比例1中的区间短,更精确 这是因为它利用了分布的信息。
例3 已知某炼铁厂的铁水含碳量再正常生产情况下服 从正态分布,其方差σ2=0.1082。现在测定了9炉铁水, 其平均含碳量为4.484。按此资料计算该厂铁水平均含 碳量的置信区间,并要求有95%的可靠性。
(
)
S S P X tα < < X + tα = 1 α n n
即置信度为1-α的置信区间为
S S tα , X + tα X n n 2S 区间长度为 tα n 要提高精确度,需要增大样本容量n 或减少t α ,即增加α,降低可靠度1 α 确定t α要查t分布的双侧临界值表,样表如下:
1 n
$ 则称θ是θ的最大似然估计。
$ 实际上, θ是似然函数L的最大值点。
由于lnL与L同时达到最大值 求 ln L的最大值点往往更方便。
ln L称为对数似然函数。
若θ为向量,θ=(θ1 ,..., θm )
ln L θ = 0 1 ... 解方程组 ln L =0 θm
$ $ 得到驻点(θ1 ,..., θm ), 它常常就是最大值点。
1 n 1 n
$ $ P(θ1 < θ < θ2 ) = 1 α $ $ 区间(θ1 , θ2 )称为置信区间。 $ $ θ1及θ2分别称为置信区间的上下限。
1 α称为置信系数,也称置信概率或置信度。
α是事先给定的一个小正数,它是指参数估计不准的 概率。 一般设α=0.05或α=0.01 $ 当样本不同时,与θ2也会不同,而θ是真实值。 θ1 $
∑ xi
n
∑ xi
i =1
n
取对数得
n n ln L(p) = ∑ x i ln p + n ∑ x i ln(1 p) i =1 i=1
求驻点:
n n 1 1 ln L(p) ] ' = ∑ x i n ∑ x i [ i =1 i=1 p 1 p 1 n $ 解得 p = ∑ x i = x n i=1
设(x1 ,..., x n )为总体ξ的一组样本观察值。 $ 要选取总体分布中未知参数θ的估计值θ, 使得
$ θ作为参数时,上述样本出现的可能性最大。
这种方法称为最大似然法。
若ξ是离散型随机变量
P(ξ = x i ) = p(x i , θ) 则样本x1 ,..., x n发生的概率为
L(x1 ,..., x n , θ) = ∏ p(x i , θ)
用样本方差S2估计总体的方差
§1 点估计
例1 某厂某天生产了一大批灯泡,从中抽取10个 进行寿命试验,得数据如下(单位:小时) 1050 1100 1080 1120 1200 1250 1040 1130 1300 1200 问该天生产的灯泡平均寿命大约是多少?
解: 1147 X=
灯泡的平均寿命约为1147小时
x>0 其它 130
(θ > 0)
若有一组样本 16 29 50 68 100 140 270 280 340 410 450 520 620 190 210 800 1100 用最大似然法估计θ
解:用x1 ,..., x n 表示样本观察值
1 L=∏ e i =1 θ
n
x i θ
∑ 1 = ne θ
解:设该厂铁水平均含碳量为 α=0.05 u α = 1.96
σ = 0.108
n =9
x = 4.484
置信度为95%的置信区间为 0.108 0.108 1.96, 4.484 + 1.96 4.484 9 9 即 (4.413,4.555)
3、一般总体大样本 当样本容量很大时,由中心极限定理, X近似服从 正态分布,可利用正态总体的区间估计。 例4 对某地家庭收入进行抽样检查,随机抽取100个 家庭,其样本平均值为11900元,据现有资料,总体 家庭收入的标准差是1500元。求置信度为95%的家庭 收入均值的置信区间。 解:n=100 x = 11900 σ = 1500 u α = 1.96 1500 1500 置信区间为11900 1.96, 11900 + 1.96 100 100 即 (11606,12194)
2
$ 2不是σ2的无偏估计。 注意: σ
8.2 区间估计
点估计值未必等于真实值。 即使相等也无法判定。 根据估计量的分布,在一定的可靠程度下,指出被估计 的总体参数所在的可能数值范围。 这类问题称为参数的区间估计。 $ $ 找两个统计量θ1 (X ,..., X )与θ2 (X ,..., X ), 使得
相关文档
最新文档