统计学第八章

合集下载

统计学第七章、第八章课后题答案

统计学第七章、第八章课后题答案

统计学复习笔记之南宫帮珍创作第七章第八章参数估计一、思考题1.解释估计量和估计值在参数估计中, 用来估计总体参数的统计量称为估计量.估计量也是随机变量.如样本均值, 样本比例、样本方差等.根据一个具体的样本计算出来的估计量的数值称为估计值. 2.简述评价估计量好坏的标准(1)无偏性:是指估计量抽样分布的期望值即是被估计的总体参数.(2)有效性:是指估计量的方差尽可能小.对同一总体参数的两个无偏估计量, 有更小方差的估计量更有效.(3)一致性:是指随着样本量的增年夜, 点估计量的值越来越接近被估总体的参数.3.怎样理解置信区间在区间估计中, 由样本统计量所构造的总体参数的估计区间称为置信区间.置信区间的论述是由区间和置信度两部份组成.有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间), 其实不说明置信度, 也不给出被调查的人数, 这是不负责的暗示.因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌.在公布调查结果时给出被调查人数是负责任的暗示.这样则可以由此推算出置信度(由后面给出的公式), 反之亦然.4.解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率.也就是说, 无穷次重复抽样所获得的所有区间中有95%(的区间)包括参数.不要认为由某一样本数据获得总体参数的某一个95%置信区间, 就以为该区间以0.95的概率覆盖总体参数.5.简述样本量与置信水平、总体方差、估计误差的关系.1.估计总体均值时样本量n为其中:2.样本量n与置信水平1-α、总体方差、估计误差E之间的关系为▪与置信水平成正比, 在其他条件不变的情况下, 置信水平越年夜, 所需要的样本量越年夜;▪与总体方差成正比, 总体的不同越年夜, 所要求的样本量也越年夜;▪与与总体方差成正比, 样本量与估计误差的平方成反比, 即可以接受的估计误差的平方越年夜, 所需的样本量越小.二、练习题1.从一个标准差为5的总体中采纳重复抽样方法抽出一个样本量为40的样本, 样本均值为25.1)样本均值的抽样标准差即是几多?2)在95%的置信水平下, 估计误差是几多?解: 1)已知σ = 5, n = 40, = 25∵∴2)已知∵2.某快餐店想要估计每位顾客午餐的平均花费金额, 在为期3周的时间里选取49名顾客组成了一个简单随机样本.1)假定总体标准差为15元, 求样本均值的抽样标准误差.2)在95%的置信水平下, 求估计误差.3)如果样本均值为120元, 求总体均值µ的95%的置信区间.解:1)已知σ = 15, n = 49∵∴2)已知∵3)已知 = 120∵ 置信区间为±E3.从一个总体中随机抽取n =100的随机样本, 获得 =104560, 假定总体标准差σ = 85414, 试构建总体均值µ的95%的置信区间.解:已知n =100, =104560, σ = 85414, 1-a=95% ,由于是正态总体, 且总体标准差已知.总体均值m在1-a置信水平下的置信区间为104560 ± 1.96×85414÷√1004.从总体中抽取一个n =100的简单随机样本, 获得 =81, s=12.要求:1)构建µ的90%的置信区间.2)构建µ的95%的置信区间.3)构建µ的99%的置信区间.解:由于是正态总体, 但总体标准差未知.总体均值m在1-a置信水平下的置信区间公式为81±×12÷√100 = 81±×????????4)= 25, σ = 3.5, n =60, 置信水平为95%5)=119, s =23.89, n =75, 置信水平为98%6)=3.149, s =0.974, n =32, 置信水平为90%解:∵∴ 1) 1-a=95% ,其置信区间为:25±1.96×3.5÷√602) 1-a=98% , 则a=0.02, a/2=0.01, 1-a/2=0.99,查标准正态分布表,可知:其置信区间为: 119±2.33×23.89÷√753) 1-a=90%,其置信区间为:3.149±1.65×0.974÷√325.利用下面的信息, 构建总体均值µ的置信区间:1)总体服从正态分布, 且已知σ = 500, n = 15, =8900, 置信水平为95%.解:N=15, 为小样本正态分布, 但σ已知.则1-a=95%, .其置信区间公式为∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2)2)总体不服从正态分布, 且已知σ = 500, n = 35, =8900,置信水平为95%.解:为年夜样本总体非正态分布, 但σ已知.则1-a=95%, .其置信区间公式为∴置信区间为:8900±1.96×500÷√35=(8733.9 9066.1)3)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为90%.解:为年夜样本总体非正态分布, 且σ未知, 1-a=90%,1.65.其置信区间为:8900±1.65×500÷√35=(8761 9039)4)总体不服从正态分布, σ未知, n = 35, =8900, s =500, 置信水平为99%.解:为年夜样本总体非正态分布, 且σ未知, 1-a=99%,2.58.其置信区间为:8900±2.58×500÷√35=(8681.9 9118.1)6.某年夜学为了解学生每天上网的时间, 在全校7500名学生中采用重复抽样方法随机抽取36人, 调查他们每天上网的时间, 获得下面的数据(单元:小时)(略).求该校年夜学生平均上网时间的置信区间, 置信水平分别为90%解:先求样本均值:= 3.32再求样本标准差:置信区间公式:7.从一个正态总体中随机抽取样本量为8的样本, 各样本值分别为:10, 8, 12, 15, 6, 13, 5, 11.求总体均值µ的95%置信区间.解:本题为一个小样本正态分布, σ未知.先求样本均值:= 80÷8=10再求样本标准差:于是 , 的置信水平为的置信区间是,已知, n = 8, 则,α/2=0.025, 查自由度为n-1 = 7的分布表得临界值所以, 置信区间为:10±2.45×3.4641÷√78.某居民小区为研究职工上班从家里到单元的距离, 抽取了由16个人组成的一个随机样本, 他们到单元的距离分别是:10, 3,14, 8, 6, 9, 12, 11, 7, 5, 10, 15, 9, 16, 13, 2.假设总体服从正态分布, 求职工上班从家里到单元平均距离的95%的置信区间.解:小样本正态分布, σ未知.已知, n = 16, , 则, α/2=0.025, 查自由度为n-1 = 15的分布表得临界值样本均值再求样本标准差:于是 , 的置信水平为的置信区间是?? ??????????????????±??×??÷√??9.从一批零件是随机抽取????个, 测得其平均长度是??????, 标准差是????.1)求确定该种零件平均长度的????August的置信区间.2)在上面估计中, 你使用了统计中的哪一个重要定理?请解释.解:)??这是一个年夜样天职布.已知N??????, ??????????????, S????????, α?? ????, .其置信区间为:149.5±1.96×1.93÷√36 2)中心极限定理论证:如果总体变量存在有限的平均数和方差, 那么, 不论这个总体的分布如何, 随着样本容量的增加, 样本均值的分布便趋近正态分布.在现实生活中, 一个随机变量服从正态分布未必很多, 可是多个随机变量和的分布趋于正态分布则是普遍存在的.样本均值也是一种随机变量和的分布, 因此在样本容量充沛年夜的条件下, 样本均值也趋近于正态分布, 这为抽样误差的概率估计理论提供了理论基础.10.某企业生产的袋装食品采纳自动打包机包装, 每袋标准重量为100克, 现从某天生产的一批产物中按重复抽样随机抽取50包进行检查, 测得每包重量如下:(略)已知食品包重服从正态分布, 要求:1)确定该种食品平均重量的95%的置信区间.2)如果规定食品重量低于100克属于分歧格, 确定该批食品合格率的95%的置信区间.解:1)本题为一个年夜样本正态分布, σ未知.已知N=50, µ=100, 1-α=0.95, .① 每组组中值分别为97、99、101、103、105, 即此50包样本平均值= (97+99+101+103+105)/5 = 101② 样本标准差为:③其置信区间为:101±1.96×1.666÷√502)∵ 分歧格包数(<100克)为2+3=5包, 5/50 = 10%(分歧格率), 即P = 90%.∴ 该批食品合格率的95%置信区间为:11.假设总体服从正态分布, 利用下面的数据构建总体均值μ的99%的置信区间.(略)解:样本均值样本标准差:尽管总体服从正态分布, 可是样本n=25是小样本, 且总体标准差未知, 应该用T统计量估计.1-α=0.99, 则α=0.01, α/2=0.005, 查自由度为n-1 =24的分布表得临界值的置信水平为的置信区间是,12.一家研究机构想估计在网络公司工作的员工每周加班的平均时间, 为此随机抽取了18个员工, 获得他们每周加班的时间数据如下(单元:小时):(略)假定员工每周加班的时间服从正态分布, 估计网络公司员工平均每周加班时间的90%的置信区间.解:① N = 18 < 30, 为小样本正态分布, σ未知.②样本均值样本标准差:=③ 1-α= 90%, α= 0.1, α/2= 0.05, 则查自由度为n-1 = 17的分布表得临界值④的置信水平为的置信区间是,13.利用下面的样本数据构建总体比例丌的置信区间:1)n =44, p = 0.51 , 置信水平为99%2)n =300, p = 0.82 , 置信水平为95%3)n =1150, p = 0.48, 置信水平为90%解: 1) 1-α= 99%, α= 0.01, α/2= 0.005, 1-α/2= 0.995, 查标准正态分布表, 则2)1-a=95%,3)1-a=90%,分别代入14.在一项家电市场调查中, 随机抽取了200个居民户, 调查他们是否拥有某一品牌的电视机, 其中拥有该品牌电视机的家庭占23%.求总体比例的置信区间, 置信水平分别为90%和95%.解: 1)置信水平90%, 1-a=90%, 1.65, N = 200, P = 23%.代入2)置信水平95%, 1-a=95%, , N = 200, P = 23%.代入15.一位银行的管理人员想估计每位顾客在该银行的月平均存款额.他假设所有顾客月存款额的标准差为1000元, 要求的估计误差在200元以内, 置信水平为99%.应选取多年夜的样本?解:已知 1-α = 99%, 则 2.58.E = 200, σ= 1000元.则N = (²×σ²)÷E²= (2.58²×1000²)÷200²≈167(得数应该是166.41, 不论小数后是几多, 都向上进位取整, 因此至少是167人)16.要估计总体比例丌, 计算下列条件下所需的样本量.1)E=0.02, 丌=0.40, 置信水平96%2)E=0.04, 丌未知, 置信水平95%3)E=0.05, 丌=0.55, 置信水平90%解: 1)已知 1-α = 96%, α/2 =0.02 , 则N = {²×丌(1-丌)}÷E²=2.06²×0.4×0.6÷0.02²≈25472)已知 1-α = 95%, α/2 =0.025 , 则丌未知,则取使丌(1-丌)最年夜时的0.5.N = {²×丌(1-丌)}÷E²=1.96²×0.5×0.5÷0.04²≈601 3)置信水平90%, 1-a=90%, 1.65,N = {²×丌(1-丌)}÷E²=1.65²×0.55×0.45÷0.05²≈27017.某居民小区共有居民500户, 小区管理者准备采纳一项新的供水设施, 想了解居民是否赞成.采用重复抽样方法随机抽取了50户, 其中有32户赞同, 18户反对.1)求总体中赞成该项改革的户数比例的置信区间(α=0.05)2)如果小区管理者预计赞成的比例能到达80%, 估计误差不超越10%, 应抽取几多户进行调查(α=0.05)解:1)已知N=50, P=32/50=0.64, α=0.05, α/2 =0.025 , 则置信区间:P±2)已知丌=0.8 , E = 0.1, α=0.05, α/2 =0.025 , 则N= ²丌(1-丌)/E²= 1.96²×0.8×0.2÷0.1²≈6218.根据下面的样本结果, 计算总体标准差σ的90%的置信区间:1)=21, S=2, N=502)=1.3, S=0.02, N=153)=167, S=31, N=22解:1)年夜样本, σ未知, 置信水平90%, 1-a=90%,21±1.65×2÷√502)小样本, σ未知, 置信水平90%, 1-a=90%, 则查自由度为n-1 = 14的分布表得临界值, = 1.3±1.761×0.02÷√153) 年夜样本, σ未知, 置信水平90%, 1-a=90%,167±1.65×31÷√2219.题目(略)1)构建第一种排队方式等候时间标准差的95%的置信区间2)构建第二种排队方式等候时间标准差的95%的置信区间3)根据1)和2)的结果, 你认为哪种排队方式更好?解:本题为小样本正态分布, σ未知, 应用公式,置信水平95%, 1-a=95%, 则查自由度为n-1 = 9的分布表得临界值1)= 7.15,其置信区间为7.15±2.31×0.48÷√102)= √0/9 = 0其置信区间为7.15±04)第二种排队方式更好.(19题是对总体方差的估计, 应该用卡方统计量进行估计, 20题是对两个总体参数的估计, 这二种类型老师未讲, 不是本次考试的内容, 不能用Z统计量像估计总体均值和比例那样去估计, 具体内容见书上P188――P194)第九章假设检验一、思考题1.假设检验和参数估计有什么相同点和分歧点?解:参数估计与假设检验是统计推断的两个组成部份.相同点:它们都是利用样本对总体进行某种推断.分歧点:推断的角度分歧.参数估计讨论的是用样本统计量估计总体参数的方法, 总体参数μ在估计前是未知的.而在假设检验中, 则是先对μ的值提出一个假设, 然后利用样本信息去检验这个假设是否成立.2.什么是假设检验中的显著性水平?统计显著是什么意思?解:显著性水平用α暗示, 在假设检验中, 它的含义是当原假设正确时却被拒绝的概率或风险, 即假设检验中犯弃真毛病的概率.它是由人们根据检验的要求确定的.(我理解的统计学意义, 统计显著是统计上专用的判定标准, 指在一定的概率原则下, 可以供认一种趋势或者合理性到达的水平, 到达为统计上水平显著, 达不到为统计上水平不显著)3.什么是假设检验中的两类毛病?解:弃真毛病(α毛病):当原假设为真时拒绝原假设, 所犯的毛病成为第I类毛病, 又称为弃真毛病.犯第I类毛病的概率常记作α.取伪毛病(β毛病):当原假设为假时没有拒绝原假设, 所犯的毛病称为第II类毛病, 又称取伪毛病.犯第II类毛病概率常记作β.发生第I类毛病的概率也常被用于检验结论的可靠性怀抱.假设检验中犯第I类毛病的概率被称为显著性水平, 记作α.4.两类毛病之间存在什么样的数量关系?在样本容量n一定的情况下, 假设检验不能同时做到犯α和β两类毛病的概率都很小.若减小α毛病, 就会增年夜犯β毛病的机会;若减小β毛病, 也会增年夜犯α毛病的机会.要使α和β同时变小只有增年夜样本容量.但样本容量增加要受人力、经费、时间等很多因素的限制, 无限制增加样本容量就会使抽样调查失去意义.因此假设检验需要慎重考虑对两类毛病进行控制的问题.5.解释假设检验中的P值.解:如果原假设为真, 所获得的样本结果会像实际观测结果那么极端或更极真个概率, 称为P值.也称为观察到的显著性水平.P值是反映实际观测到的数据与原假设H0之间纷歧致水平的一个概率值.P值越小, 说明实际观测到的数据与H0之间纷歧致水平就越年夜.6.显著性水平与P值有何区别?解:α(显著性水平)是一个判断的标准(当原假设为真, 却被拒绝的概率), 而P是实际统计量对应分位点的概率值(当原假设为真时, 所获得的样本观察结果或更极端结果呈现的概率).可以通过α计算置信区间, 然后与统计量进行比力判断, 也可以通过统计量计算对应的p值, 然后与α值比力判断.7.假设检验依据的基来源根基理是什么?解:假设检验利用的是小概率原理, 小概率原理是指发生概率很小的随机事件在一次试验中是几乎不成能发生的.根据这一原理, 可以先假设总体参数的某项取值为真, 也就是假设其发生的可能性很年夜, 然后抽取一个样本进行观察, 如果样本信息显示呈现了与事先假设相反的结果且与原假设分歧很年夜, 则说明原来假定的小概率事件在一次实验中发生了, 这是一个违背小概率原理的分歧理现象, 因此有理由怀疑和拒绝原假设;否则不能拒绝原假设.8. 你认为在单侧检验中原假设和备择假设的方向应该如何确定?解: 假设问题有两种情况, 一种是所考察的数值越年夜越好(左单侧检验或下限检验), 临界值和拒绝域均在左侧;另一种是数值越小越好(右单侧检验或上限检验), 临界值和拒绝域均在右侧.二、 练习题1. 已知某炼铁厂的含碳量服从正态分布N (4.55, 0.108²), 现在测定了9炉铁水, 其平均含碳量为4.484.如果估计方差没有变动, 可否认为现在生产的铁水平均含碳量为4.55(α=0.05)? 解: 已知μ0=4.55, σ²=0.108², N=9, =4.484,这里采纳双侧检验, 小样本, σ已知, 使用Z 统计.假定现在生产的铁水平均含碳量与以前无显著不同.则, α=0.05, α/2 =0.025 , 查表得临界值为计算检验统计量: = (4.484-4.55)/(0.108/√9) 决策:∵Z 值落入接受域, ∴在=0.05的显著性水平上接受H0. nx Z / σ - =μ0结论:有证据标明现在生产的铁水平均含碳量与以前没有显著不同, 可以认为现在生产的铁水平均含碳量为4.55.2. 一种元件, 要求其使用寿命不得低于700小时.现从一批这种元件中随机抽取36件, 测得其平均寿命为680小时.已知该元件寿命服从正态分布, σ=60小时, 试在显著性水平0.05下确定这批元件是否合格.解: 已知N=36, σ=60, =680, μ0=700这里是年夜样本, σ已知, 左侧检验, 采纳Z 统计量计算. 提出假设:假定使用寿命平均不低于700小时H0:μ≥700H1: μ < 700= 0.05, 左检验临界值为负, 查得临界值: -Z0.05=-1.645计算检验统计量: = (680-700)/(60/√36) = -2决策:∵Z 值落入拒绝域, ∴在=0.05的显著性水平上拒绝H0, 接受H1结论:有证据标明这批灯胆的使用寿命低于700小时, 为分歧格产物.3. 某地域小麦的一般生产水平为亩产250公斤, 其标准差是30公斤.现用一种化肥进行试验, 从25个小区抽样, 平均产量为n x Z / σ - = μ0270公斤.这种化肥是否使小麦明显增产(α=0.05)?解:已知μ0 =250, σ = 30, N=25, =270提出假设:假定这种化肥没使小麦明显增产.即 H0:μ≤250H1: μ>250计算统计量:Z = (结论:Z统计量落入拒绝域, 在α =0.05的显著性水平上, 拒绝H0, 接受H1.决策:有证据标明, 这种化肥可以使小麦明显增产.4.糖厂用自动打包机打包, 每包标准重量是100千克.每天开工后需要检验一次打包机工作是否正常.某日开工后测得9包重量(单元:千克)如下:(略)已知包重服从正态分布, 试检验该日打包机工作是否正常.(α =0.05)= 99.98提出假设, 假设打包机工作正常:即 H0:μ= 100H1: μ≠100计算统计量:决策:有证据标明这天的打包机工作正常.5. 某种年夜量生产的袋装食品, 按规定不得少于250克.今从一批该食品中任意抽取50袋, 发现有6袋低于250克.若规定不符合标准的比例超越5%就不得出厂, 问该批食品能否出厂(=0.05)?H0:丌≤5%H1:丌>5%(因为没有找到丌暗示的公式, 这里用P0暗示丌0)结论:因为Z 值落入拒绝域, 所以在=0.05的显著性水平上, 拒绝H0, 而接受H1.决策:有证据标明该批食品合格率不符合标准, 不能出厂. 6. 某厂家在广告中声称, 该厂生产的汽车轮胎在正常行驶条件下超越目前的平均水平25000公里.对一个由15个轮胎组成的随机样本做了试验, 获得样本均值和标准差分别为27000公里和5000公里.假定轮胎寿命服从正态分布, 问该厂家的广告是否真- = ns x t μ0实(=0.05)?解:N=15,H0:μ0 ≤25000H1:μ >25000结论:因为t 值落入接受域, 所以接受H0, 拒绝H1.决策:有证据标明, 该厂家生产的轮胎在正常行驶条件下使用寿命与目前平均水平25000公里无显著性不同, 该厂家广告不真实. 7. 某种电子元件的寿命x (单元:小时)服从正态分布.现测得16只元件的寿命如下:(略).问是否有理由认为元件的平均寿命显著地年夜于225小时(=0.05)? 解:= 241.5,H :μ??> ??创作时间:二零二一年六月三十日 - = ns x t - = ns x tμ0 μ0。

统计学第八章课后题及答案解析

统计学第八章课后题及答案解析

第八章一、单项选择题1.时间数列的构成要素是()A.变量和次数 B.时间和指标数值C.时间和次数 D.主词和时间2.编制时间数列的基本原则是保证数列中各个指标值具有()A.可加性 B.连续性C.一致性 D.可比性3.相邻两个累积增长量之差,等于相应时期的()A.累积增长量 B.平均增长量C.逐期增长量 D.年距增长量4.统计工作中,为了消除季节变动的影响可以计算()A.逐期增长量 B.累积增长量C.平均增长量 D.年距增长量5.基期均为前一期水平的发展速度是()A.定基发展速度 B.环比发展速度C.年距发展速度 D.平均发展速度6.某企业2003年产值比1996年增长了1倍,比2001年增长了50%,则2001年比1996年增长了()A.33% B.50%C.75% D.100%7.关于增长速度以下表述正确的有()A.增长速度是增长量与基期水平之比 B.增长速度是发展速度减1C.增长速度有环比和定基之分 D.增长速度只能取正值8.如果时间数列环比发展速度大体相同,可配合()A.直线趋势方程 B.抛物线趋势方程C.指数曲线方程 D.二次曲线方程二、多项选择题1.编制时间数列的原则有()A.时期长短应一致 B.总体范围应该统一C.计算方法应该统一 D.计算价格应该统一E.经济内容应该统一2.发展水平有()A.最初水平 B.最末水平C.中间水平 D.报告期水平E.基期水平3.时间数列水平分析指标有()A.发展速度 B.发展水平C.增长量 D.平均发展水平E.平均增长量4.测定长期趋势的方法有()A.时距扩大法 B.移动平均法C.序时平均法 D.分割平均法E.最小平方法三、填空题1.保证数列中各个指标值的_______是编制时间数列的最主要规则。

2.根据采用的基期不同,增长量可以分为逐期增长量和_______增长量两种。

3.累积增长量等于相应的_______之和。

两个相邻的_______之差,等于相应时期的逐期增长量。

统计学-第八章 假设检验

统计学-第八章  假设检验
验和单侧检验。以总体均值μ 的检验为例:
假设 原假设
双侧检验
单侧检验
左侧检验 右侧检验
H0 : m =m0 H0 : m m0 H0 : m m0
备择假设 H1 : m ≠m0 H1 : m <m0 H1 : m >m0
三、假设检验的程序---
4.例题分析
[例8.1] 某品牌洗衣粉在它的产品说明书中声称:平 均净含量不少于1250克。从消费者的利益出发,有关研 究人员要通过抽检其中的一批产品来验证该产品制造商 的说明是否属实。试写出用于检验的原假设与备择假设。
2.接受域:概率P>的区域,为大概率区域,称之 为原假设的接受区域。
3.拒绝域:概率P≤的区域,为小概率区域,称之 为原假设的拒绝区域。
三、假设检验的程序---
1.拒绝原假设H1 原则:临界值
2.接受原假设H0 原则:临界值
检验统计值的绝 对值大于临界值;
检验统计值的绝 对值小于临界值;
假设 H0为真实 H0为不真实
接受H0 判断正确
采伪错误()
拒绝H0 弃真错误()
判断正确
四、假设检验中的两类错误
第I类()错误和第II类()错误的关系
和的关系就像 翘翘板,小就 大, 大就小。
你要同时减少两类 错误的惟一办法是 增加样本容量!
关乎决策:三个与其
与其,人为地把显著性水平固定按某一水平上,不 如干脆选取检验统计量的P值;
第二节 一个正态总体的假设检验
二、均值m的假设检验
3.给出显著性水平(0.01、0.05或0.1)
4.确定接受域和拒绝域(以双侧检验为例)

2已知:当Z Z 2
,则拒绝原假设,反之则接受H0;

统计学_08统计电算化

统计学_08统计电算化

经济、管理类 基础课程
统计学
第四节 Excel的统计数据分析功能
五、Excel在指数分析中的应用 (一)综合法总指数 (二)平均法总指数
六、Excel在长期趋势分析中的应用 (一)移动平均法 在Excel中,移动平均法可使用AVERAGE函数,利用填充柄功 能求得
(二)最小平方法
8- 21
经济、管理类 基础课程
统计学
第四节 Excel的统计数据分析功能
七、Excel在相关与回归分析中的应用 (一)相关系数的计算 利用Excel计算相关系数,可以使用CORREL函数计算。
(二)一元线性回归分析 利用“数据分析”宏中的回归分析,可以直接计算y对x的回归模 型。利用 图8.55中的资料计算y对x的回归模型。 单击“工具”菜单中的“数据分析”选项,弹出“数据分析”对 话框,选中“回归”选项,单击“确定”按钮。屏幕上将弹出 “回归”对话框。 在“Y值输入区域 (Y)”中,输入“B2:B7”,“X值输入区域 (X)” 中输入“C2:C7”,输出选项如果默认不再设置,则输出结果将在 新工作表中显示,单击“确定”按钮,Excel将自动生成一新工 8- 22 作表,表中显示回归分析结果,
8- 10
经济、管理类 基础课程
统计学
第三节 SAS/INSIGHT软件及应用
四、用INSIGHT计算常用描述统计量 NO (编号)、SEX (性别)、AGE (年龄)、HEIGHT (身高)、 WEIGHT (体重),如果要得到变量HEIGHT (身高)和 WEIGHT (体重) 的描述统计量,可进行如下操作: 1)在主菜单中选择Analyze→Distribution (Y) 菜单项,系统会 弹出一个对话框 。 2)在对话框左侧变量列表中选中HEIGHT和WEIGHT两个变量, 单击右侧的Y按钮,在分析变量Y的列表中会出现HEIGHT和 WEIGHT两个变量名。 3)单击OK按钮。 完成上述操作后,屏幕会出现名为Distribution TJX.EXAMPLE2 的窗口,显示对两个变量的分析结果。 8- 11

统计学(第八章抽样推断)

统计学(第八章抽样推断)

统计学(第⼋章抽样推断)第⼋章抽样推断【教学⽬的】抽样推断是统计研究中⼀种重要的分析⽅法。

通过本章的学习,要求掌握利⽤样本统计资料来推断总体数量特征的原理及⽅法;深刻理解抽样推断的概念及特点;了解抽样误差产⽣的原因,并对抽样误差、抽样平均误差、抽样极限误差加以区别,掌握抽样平均误差、抽样极限误差的计算;掌握点估计和区间估计的⽅法;掌握必要样本单位数的确定⽅法。

第⼀节抽样推断概述⼀、抽样推断的概念及特点(⼀)概念按随机原则从总体中抽取部分单位,根据这部分单位的信息对总体的数量特征进⾏科学估计与推断的⽅法。

包括抽样调查和统计推断抽样调查:⼀种⾮全⾯调查,按随机原则从总体中抽取部分单位进⾏调查以获得相关资料,以推断总体统计推断:根据抽样调查所获得的信息,对总体的数量特征作出具有⼀定程度的估计和推断。

(⼆)特点1.按随机原则(等可能性原则)抽取调查单位.随机抽样的⽬的是为了排除⼈的主观影响,使每个样本都有系统的可能性被抽中,使样本对总体具有充分的代表性。

随机性原则是保证抽样推断正确性的⼀个重要前提条件。

随机抽样不是随便抽样。

2.根据部分推断总体的数量特征3.抽样推断的结果具有⼀定的可靠性和准确性,抽样误差可以事先计算和控制其他特点有经济性、时效性、准确性、灵活性等(三)抽样推断的应⽤ 1.不可能进⾏全⾯调查时 2.不必要进⾏全⾯调查时 3.检查⽣产过程正常与否4.对全⾯调查资料进⾏补充修正时⼆、抽样的⼏个基本概念 1.样本容量与样本个数(1)样本容量:样本是从总体中抽出的部分单位的集合,这个集合的⼤⼩称为样本容量,⼀般⽤n 表⽰,它表明⼀个样本中所包含的单位数。

⼀般地,样本单位数⼤于30个的样本称为⼤样本,不超过30个的样本称为⼩样本。

(2)样本个数:⼜称样本可能数⽬,它是指从⼀个总体中可能抽取多少个样本。

样本个数的多少与抽样⽅法有关。

2.总体参数与样本统计量(1)总体参数:总体分布的数量特征就是总体参数,也是抽样统计推断的对象。

统计学第八章 抽样推断

统计学第八章 抽样推断


和P的使用及使用条件
(1)σ2取最大值;(2)P取接近于0.5的值
(3)可以用样本 s或2 代p替;(4)可以用估计值或实验值代替。
计算例题:
在10000只电池中,随机抽检1%的产品进行检查,检查结果如下:
电流强度 (安培) 4-4.5 4.5-5 5-5.5 5.5-6 6-6.5 6.5-7
2
f
P 2N 0 1 P 2 N1
f
N
P2N0 1 P2 N1 P2Q 1 P2 P
N
N
P2Q Q2P PQP Q PQ P1 P
例(1):已知某产品的合格率为95%,则其标准差为:
0.951 0.95 21.79%.
2、样本指标(统计量)
根据样本总体各单位的数量标志值或属性计算所得的指 标,称为样本指标。样本指标通常包括:
统计指标 抽样平均数 抽样成数 抽样平均数的标准差 抽样成数的标准差 抽样平均数的方差
抽样成数的方差
未分组资料
x x n
p n1 n
sx
xx 2
n
分组资料
x xf f
sx
x
2
x
f
f
sP p(1p)
s2
2
xx
x
n
sP2 p(1 p)
s2
2
xx f
x
f
四、抽样方法(P151)
(二)抽样极限误差的意义
(三)抽样极限误差的计算
平均数的抽样极限误差
Δx
t
μ x
成数的抽样极限误差
Δp
t
μ p
正态分布图示
68.27%
95.45%
99.73%

第八章 假设检验 (《统计学》PPT课件)

第八章  假设检验  (《统计学》PPT课件)
与其,为选取“适当的”的而苦恼,不如干脆 把真正的(P值)算出来。
第二节 一个正态总体的假设检验
一、正态总体
设总体X ~ N(m, 2),抽取容量为n的样本 x1, x2, xn
样本均值 X 与方差S2 计算公式分别为:
2
1 n 1
n i1
(xi
X)
我们将利用上述信息,来检验关于未知参数均值 和方差的假设。
总体参数
均值
方差
总体方差已知
z 检验
(单尾和双尾)
总体方差已知
t 检验
(单尾和双尾)
2 检验
(单尾和双尾)
第二节 一个正态总体的假设检验
二、均值m的假设检验
1.H0:m=m0
2.选择检验统计量:
2已知: Z X m0 ~ N(0,1)
/ n
2未知:
小样本: t X m0 ~ t(n 1)
这个值不像我 们应该得到的 样本均值 ...
...因此我们拒绝 原假设μ=50
... 如果这是总 体的假设均值
60
μ=80
H0
样本均值
第一节 假设检验概述
三、假设检验的程序
一个完整的假设检验过程,通常包括以下几个步骤:
首先,设立原假设H0与备选假设H1; 第二步,构造检验统计量,并根据样本观察数据
小样本:当 t t
2
,则拒绝原假设,反之则接受H0;
5.得出结论。
二、均值m的假设检验
6.例题分析
[例8.3] 某广告公司在广播电台做流行歌曲磁带广告 ,它的插播广告是针对平均年龄为21岁的年轻人的,标 准差为16。这家广告公司经理想了解其节目是否为目标 听众所接受。假定听众的年龄服从正态分布,现随机抽 取400多位听众进行调查,得出的样本结果为x 25 岁S2,18 。以0.05的显著水平判断广告公司的广告策划是否符合 实际?

统计学原理第八章相关与回归分析

统计学原理第八章相关与回归分析
相关分析的内容 1.判断现象之间是否存在相关关系; 2.如果存在相关关系,则要进一步判断相
关关系的种类和关系的紧密程度; 3.对相关系数进行显著性检验。
回归分析的内容
• 1. 建立反映变量间依存关系的数学模型 即回归方程;
• 2.对回归方程进行显著性检验; • 3.用回归过程进行预测。
回归分析和相关分析的主要区别
4.相关系数的绝对值越接近于1,表示相关 程度越强;越接近于0,表示相关程度越 弱。具体标准为:
R 的绝对值:0.3以下 微弱相关;
0.3-0.5 低度相关;
0.5-0.8 显著相关;
0.8以上 高度相关。
以上结论必须建立在对相关系数的显著性 检验基础之上。
三、相关系数的显著性检验
显著性检验的具体步骤:
资料:
销售量 500
(公斤)
价格 10
(元)
相关表

700 9
900 7
600 9
1000 800 89
1200 6
销售量 500
(公斤)
价格 10
(元)
600 9
700 9
800 9
900 7
1000 8
1200 6
相关图(散点图)
完全正线性相关
正线性相关
完全负线性相关
负线性相关
非线性相关
一、一元线性回归方程
❖ 只涉及一个自变量的回归
❖ 因变量y与自变量x之间为线性关系
➢ 被预测或被解释的变量称为因变量,用y表示
➢ 用来预测或用来解释因变量的一个或多个变量称为
自变量,用x表示
❖ 因变量与自变量之间的关系用一个线性方 程来表示
一元线性回归模型
❖ 一元线性回归模型可表示为

统计学第八章

统计学第八章
19
8.1.3 两类错误
项目
没有拒绝H0
拒绝H0
H0为真
1-α(正确)
α(弃真错误)
H0为假
β(取伪错误)
1-β(正确)
假设检验中各种可能结果的概率
20
8.1.3 两类错误
α和β的关系: 1、 α和β的关系就像跷跷板, α小β就大, α大β就小。因为, 要减少弃真错误α,就要扩大接受域。而扩大接受域,就必然导致取 伪错误的可能性增加。因此,不能同时做到犯两种错误的概率都很 小。要使α和β同时变小,唯一的办法就是增大样本量。 α和β两者的 关系就像是区间估计当中可靠性和精确性的关系一样。 2、在假设检验中,大家都在执行这样一个原则,即首先控制犯α错 误原则。
一般来说,在研究问题的过程中,我们想要予以反对的那个结论, 我们就把它作为原假设。
比如,一家研究机构估计,某城市当中家庭拥有汽车的比例超过 30%。为了验证这种估计是否正确,该研究机构随机的抽取了一个样本 进行检验。试陈述用于检验的原假设和备择假设。
解:研究者想要收集证据予以支持的假设是:“该城市中家庭拥有 汽车的比例超过30%”。因此,原假设是总体比例小于等于30%,备择 假设是总体比例大于30%。可见,通常我们应该先确定备择假设,再确 定原假设。
6
8.1.2 假设的表达式
在假设检验中,一般要先设立一个假设(比如从来没做过坏事),然 后从现实世界的数据中找出假设与现实的矛盾,从而否定该假设。所以, 在多数统计教材当中,假设检验都是以否定事先设定的那个假设为目标的。
如果搜集到的数据分析结构不能否定该假设,只能说明我们掌握的现 实不足以否定该假设,但不能说明该假设一定成立。这是假设检验做结论 的时候尤其要注意的一点。比如一个人在数次的观察中都没有干坏事,但 并不说明他从来都没干过坏事。

统计学_第八章__时间序列分析

统计学_第八章__时间序列分析
第八章 时间序列分析
1978—2003年GDP和最终消费(亿元) 140000 120000 100000 80000 60000 40000 20000 0
年 份 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001
GDP 最终消费
4、二者关系 (1)各逐期增长量之和等于相应的累计增长量
an a0 (a1 a0 ) (a2 a1 ) (a3 a2 ) (an an1 )
(2)相邻两期的逐期增长量之和等于相应的 累计增长量;相邻两期的累计增长量之差等于 相应的逐期增长量
(二)平均增长量 1、概念 一段时期内平均每期增加或者减少的绝 对数量。或者说是逐期增长量的序时平均数。 2、计算公式
a0 a1 a 2 a n 或 a n 1
af a f

B、如果是间断时点数列,计算方法为: 『两个假设条件: 一是假设上期期末水平等于本期期初水平; 二是假设现象在间隔期内数量变化是均匀的。』 Ⅰ、间隔期相等的时点数列,采用“首尾(首末)折半 法”计算。 先计算各间隔期的平均数;然后再将这些平均数进行 简单算术平均。例如:
第一节
时间序列分析概述
一、时间序列的概念和作用
(一)、概念: 1、时间序列:将不同时间的某一统计指标数据按照 时间的先后顺序排列起来而形成的统计序列,也称时间 数列或动态数列。 2、基本构成要素(从形式上看): 一是时间顺序(现象所属的时间)。可以是年份、季 度、月份或其他任何时间,称时间要素(常用t表示); 二是不同时间的统计数据(现象在不同时间上的观察 值)。可以是绝对数、相对数、平均数,称数据要素 (常用小写的英文字母a、b、c表示)。

统计学第八章 相关与回归分析PPT课件

统计学第八章 相关与回归分析PPT课件

30.07.2020
河北工程大学经济管理学院
9
二、相关关系的种类
把握以下问题: 1、按相关程度划分; 2、按相关方向划分; 3、按相关形式划分; 4、按变量多少划分; 5、按相关性质划分。
30.07.2020
河北工程大学经济管理学院
10
1、按相关程度划分
可分为完全相关、不完全相关和不相关 (1)完全相关:当一种现象的数量变化完全
5、按相关性质划分
分为“真实相关”和“虚假相关”: (1)当两种现象间的相关确实具有内在的联 系时,称之为“真实相关”。例如消费与收入 的相关关系等。 (2)当两种现象间的相关只是表面存在,实 质没有内在联系时,称之为“虚假相关”。 判断依据是实质性科学提供的知识。
30.07.2020
河北工程大学经济管理学院
函数关系是指变量之间存在着严格确定的依
存关系,在这种关系中,当一个或几个变
量取一定量的值时,另一变量有确定值与
之相对应,并且这种关系可以用一个数学
表达式反映出来。例如:某种产品的总成
本S与该产品的产量Q以及该产品的单位成
本P之间的关系可用S=PQ表达,这就是一
种函数关系。通常把作为影响因素的变量
称为自变量,把发生相应变化的变量称为
30.07.2020
河北工程大学经济管理学院
5
一、函数关系与相关关系
▪ 客观现象总是普遍联系和相互依存的, 客观现象间的数量联系存在两种不同 类型:函数关系和相关关系。
▪ 把握三个问题:
▪ 1、函数关系;
▪ 2、相关关系;
▪ 3、二者关系。
30.07.2020
河北工程大学经济管理学院
6
1、函数关系
因变量。在本例中,S是因变量,P与Q则

统计学第8章 时间序列分析

统计学第8章 时间序列分析

a n 1
a0
(二)增长速度(增减速度)
增长速度=
增减量 基期水平
报告期水平 基期水平 基期水平
报告期水平 基期水平 1
发展速度1
环比增长速度= an an1 an 1
an1
an1
=环比发展速度 - 100%
定基增长速度= an a0 an 1
a0
a0
=定基发展速度 - 100%
例题:
时间序列的构成要素与模型
(构成要素与测定方法)
时间序列的构成要素
长期趋势
季节变动
循环波动 不规则波动
线性趋势 非线性趋势
按月(季)平均法
移动平均法
二次曲线 指数曲线
趋势剔出法
半数平均法
修正指数曲线
最小平方法
Gompertz曲线 Logistic曲线
剩余法
线性趋势
一、移动平均法
(Moving Average Method)
移动平均法(趋势图)
200
汽 150

产 100

(万辆)50
产量 五项移动平均趋势值 五项移动中位数
0
1981
1985
1989
1993
1997
(年份)
图11-1 汽车产量移动平均趋势图
移动平均法特点
1、对原数列有修匀作用,移动项数越大,修匀 作用越强。
2、移动平均时,项数为奇数时,只需一次移动 平均,其平均值作为移动平均项中间一期; 当为偶数时,需再进行一次相邻两平均值的 移动平均。
年份
销售额 逐 期 增 减 量 环比发展速度 定基增长速
(万元) (万元)
(%)
度(%)

统计学原理第八章相关分析与回归分析

统计学原理第八章相关分析与回归分析

21
例1:P354页,第1题
企业 产量 X 单位成 XY
X2
Y2
序号 (4件) 本(元)Y
1
2
52
104
4
2704
2
3
54
162
9
2916
3
4
52
208
16
2704
4
4
48
192
16
2304
5
5
48
240
25
2304
6
6

24
46
276
36
2116
300
1182
106 15048
即:∑X=24,∑Y=300, ∑XY=1182,
• 2) X倚Y的直线方程的确定
• 根据最小平方法的原理:(x xc )2 最小值
• 将xc = c + dy代入上述公式中,分别对c和d 求一阶偏导数,并令偏导数等于0,就可以
得出两个正规方程:
x nc dy yx cy dy2
d
nyx y n y2 (
x
y )2
c x dy
举例:P355,第4题。
• 偏相关:在复相关中,当假定其他变量不 变时,其中两个变量间的相关关系称为偏 相关。例如,在假定人们收入水平不变的 条件下,某种商品的需求与其价格水平的 关系就是一种偏相关。
9
三、相关分析与回归分析
• (一)相关分析 • 是用一个指标(相关系数)来表明现象
之间相互依存的密切程度。 • (二)回归分析 • 是根据相关关系的具体形态,选择一个
• 曲线相关:如果现象之间的相关关系近似 地表现为某种曲线形式时,就称这种相关 关系为曲线相关。

统计学第八章时间数列

统计学第八章时间数列
环比增长速度=逐期增长量/前一期水平
=(报告期水平-前一期水平)/前一期水平 =环比发展速度-1(或100%)
发展速度与增长速度
2、定基增长速度。 定基增长速度是报告期的累计增长量与 某一固定基期水平之比,说明现象在较 长时间内总的增长速度。公式如下:
定基增长速度=累计增长量/某一固定期水平 =报告期水平-某一固定期水平)/某一固定期 水平 =定基发展速度-1(或100%)
1、移动平均法。 移动平均法是对原时间数列逐项求 序时平均数,平均项数固定,并逐 项移动得出由这些平均数构成的新 数列,它可以消除某些因素及随机 因素的影响,显示出现象的长期趋 势。
测定长期趋势的方法
设时间数列的水平顺次为: a1,a2,a3, an 若取三项平均移动平均形成的新数 列为:
a1 a 2 a 3 a 2 a3 a 4 a2 , a3 , 3 3
第八章 时间数列
第一节 第二节 第三节 第四节 时间数列概述 时间数列的水平指标 时间数列的速度指标 动态数列的因素分析
第八章 时间数列
第一节 时间数列概述 一、时间数列的概念及作用 二、时间数列的种类 三、编制时间数列的原则
时间数列的概念及作用
一)时间数列的概念
时间数列亦称动态数列,是将反映某现象的 统计指标在不同时间上的数值,按时间先后 顺序排列而形成的一种数列;如:
动态数列影响因素及其分解 模型
3、循环变动(以C表示) 循环变动是指现象以若干年为一周 期,近乎规律性的盛衰交替变动。 如经济危机就是循环变动,每一循 环周期都要经历危机、萧条、复苏 和高涨四个阶段。
动态数列影响因素及其分解 模型
4、随机变动(以I表示) 随机变动亦称不规则变动或剩余变 动,是动态数列除了上述三种变动 之外剩余的一种变动,是偶然因素 引起的一种随机波动。如自然灾害、 战争等无法预见的因素引起的波动。

统计学8章

统计学8章

三、平均发展水平
又称序时平均数或动态平均数,是时间数 列中各项指标值的平均数。它将现象在不同时 间上的数量差异抽象化,从动态上反映现象在 一段时间内的一般发展水平。 现象在不同时间上的发展变化总是不平衡 的,在动态分析中序时平均数可以用来修匀时 间数列,消除现象在短时间内的波动,使时间 数列能更明显更集中地反映出现象的发展变化 方向、程度和趋势。序时平均数还广泛用于对 比不同单位,不同地区,不同部门乃至不同国 家在某一时间内发展变化的一般水平。
(二)相对指标时间数列
是由不同时间上的同类相对数按先后顺 序排列而成的动态数列,用来说明现象之间 的数量对比关系或相互联系的发展变化过程, 能更清晰地表明某些现象数量对比关系的发 展变化及规律性。 各个指标都是相对数,其计算基础不同, 不能直接相加。
(三)平均指标时间数列
是由不同时间上的同类平均指标按先后 顺序排列而成的动态数列,可用以分析某一 现象的一般水平的变化过程和发展趋势。
(2)当已知分子数列和相对指标时间 数列时,应采用加权调和平均法。
a a 由于 c , 则: b c b
而 所以
a a c b b
a c a c
2. 分子数列、分母数列都是时点数列
如果分子数列和分母数列都是时点数列, 当两个时点数列的资料是逐日记录的,以日 为间隔依次排列时,就可视为连续的时点数 列,可用简单算术平均法分别计算分子数列 和分母数列的序时平均数,再求得相对指标 时间数列的序时平均数。
动态平均数所组成的时间数列。由于这两种
时间数列性质不同,计算序时平均数的方法 也不同。
1. 根据一般平均数所组成的时间数列 计算序时平均数
由于该种时间数列中每个指标都是平均 数,不能直接相加,必须求出分子数列的序 时平均数和分母数列的序时平均数,用两者 对比,才可求出一般平均数时间数列的序时 平均数。

统计学原理(第八章)

统计学原理(第八章)
14
相关系数的计算
例:下表是某地区1996年—2008年的人均国民收 下表是某地区1996 1996年 2008年的人均国民收 入和人均消费金额,试判断二者之间的关系。 入和人均消费金额,试判断二者之间的关系。
15
相关系数的计算
单位:元 年份 1996 1997 1998 1999 2000 2001 2002 收入 消费额 393.8 249 419.14 267 460.86 289 544.11 329 668.29 406 737.73 451 859.97 513 年份 2003 2004 2005 2006 2007 2008 收入 消费额 1068.8 643 1169.2 699 1250.7 713 1429.5 803 1725.9 947 2099.5 1148
16
相关关系的判断 相关关系的判断
收入与消费的散点图 1400 1200 1000 800 600 400 200 0 0 500 1000 1500 2000
17
2500
相关系数的计算
根据上述资料计算人均国民收入和人 均消费金额之间的相关系数: 均消费金额之间的相关系数:
r=
∑ (x − x )( y − y ) ∑ (x − x ) ∑ ( y − y )
∑ (x − x )( y − y ) ∑ (x − x ) ∑ ( y − y )
13
8.2.3相关系数的应用 8.2.3相关系数的应用
1)-1≤r≤1 如果r>0 线性正相关;r<0, r>0, 2)如果r>0,线性正相关;r<0,线性负相关 3)如果r=0,则不存在线性关系 如果r=0 r=0, 4)如果 r ≺ 0.3 ,不相关 5)如果 0.3 ≺ r ≺ 0.5 ,低度相关 显著相关(中度相关) 6)如果 0.5 ≺ r ≺ 0.8 ,显著相关(中度相关) 7)如果 r ≻ 0.8 ,高度相关
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

400, F(t ) 95%,
查表得 : t 1.96, 则 : x
计算的,反映总体某种属性的综合指标。由于
全及总体是唯一确定的,根据全及总体计算的
全及指标也是唯一确定的。
2.样本指标。
样本指标也称样本统计量或抽样指标,它
是根据抽样总体各单位的标志值或标志特征计 算的综合指标。由于可以从一个全及总体中抽 取许多个不同的样本,不同的样本其分布结构 也会有差异,抽样指标的数值也就不同,所以
[公式8—29]
由此得到平均数和成数的误差范围公式:
8—30] [公式8—31]
进而得到总体平均指标和总体成数指标的区间 估计公式为:
x x X x x
8—32]
p p P p p[公式8—33]
[例8—6]
n 10000 1% 100, x 5000,
态分布。从正态分布图中,可以总结两个特点:
一是样本指标高于或低于总体指标的概率分布完
全是对称的;二是样本指标接近于总体指标的概 率越大(小),出现的可能性也越大(小)。
图8—3
样本指标置信度图
误差范围 ˆ 与概率度(t)和抽样平均误差 ˆ

三者之间的关系为:
ˆ tˆ
x t x p t p
r r 1 R
[公式8—21]
其中:
2 Xi X
R
x2
[公式8—22]
p

Pi P 2
R
[公式8—23]
[例8—5]
首先,分别计算样本平均数和样本成数:
x
p r rxi248 246 253 4400(克) 3 85% 80% 253 84% 83% 3
抽样指标的数值不是唯一确定的。
样本统计量与总体参数
名称 定义 特征 样本 从总体中抽出的部分单位 统计量 样本容量 样本平均数 样本比率 样本方差 样本标准差
n x ~ p s2 s
总体 研究对象的全部单位 参数 总体容量 N 总体平均数 X或 总体比率 P 总体方差 2 总体标准差
符号
第八章
抽样调查
内容提要
本章主要阐述了抽样调查的概念、 特点、作用和几个基本概念;影响抽样 误差的主要因素;抽样调查几种主要组 织方式的抽样平均误差的计算;抽样估 计推断;点估计和区间估计;必要抽样
第一节 抽样调查的一般问题
一、抽样调查的概念与作用 (一)抽样调查的概念与特点
抽样调查又称抽样推断或抽样估计,
pi
然后,分别求出样本平均数群间方差和成数群间 方差:
x2

xi x 2
R

26 8.67 3
p
pi p 2
R
14 4.67 3
最后,根据[公式8—20]和[公式8—21]求出 μ x和μ p为:
2x
r
x
r 1 R
二、区间估计
区间估计就是以一定的概率保证估计
包含总体参数的一个值域,即根据样本指 标和抽样平均误差推断总体指标的可能范 围。
图8—2 正态分布曲线图
根据数理统计证明,总体单位的标志值如果是
正态分布,其全部可能样本也一定是正态分布的;
如果总体单位的标志值不是正态分布的,只要是
大样本(即n≥30),全部可能样本指标也会接近正
二、抽样调查中的几个基本概念 (一)全及总体和抽样总体 1.全及总体。全及总体简称总体或母体,
它是指所要调查研究对象的全体。
2.抽样总体。抽样总体简称样本或子样, 它是指在全及总体中按随机原则抽取的那部分. 单位所构成的集合体。
(二)总体指标和样本指标 1.总体指标。 总体指标也称为母体参数或全及指标, 它是根据全及总体各单位的标志值或标志特征
三、抽样调查的组织方式
(一)简单随机抽样
简单随机抽样也叫纯随机抽样,它对总 体单位不作任何分类排队,而是直接从总体 中随机抽取一部分单位来组成样本的抽样组 织方式。 (1)抽签法。
(2)随机数字法。
(二)类型抽样 类型抽样又称分类抽样或分层抽样, 它是先将总体按某个主要标志进行分组
(或分类),再按随机原则从各组中抽取
100 25 N 4 采取重复抽样 X 400 X 100 25 25 K 16 N 4 全部可能组成样本的标准差为 : x
i

X
x

x
K 采取不重复抽样

x x
X

2

1000 7.91 16 250 6.46 16
x

X
2
n CN
代表成数
的抽样平均误差,以K代表可能组成的样本 总数。
(二)计算抽样平均误差的理论公式
ˆ

样本指标 总体指标2
可能组成的样本总数
即: x
2 x X
K
[公式8—6] [公式8—7]
p P 2
K
p
[例8—1]为叙述简便起见,假设有10,20,30和 40四个数字组成一个总体,从中随机抽取两个数字 作为样本,求抽样平均误差。
i 2 Ni
N
[公式8—18]
P 1 P

P i 1 Pi N
[公式8—19]
[例8—4]
x
s2

n
xi ni
6000 24 2400 16 3600 8 4400(千克 / 公顷) 48 60 2 24 120 2 16 95 2 8 8014.17 48
ˆ E
[公式8—27]
3.有效性。无偏性只考虑估计量的平均结果是 否等于待估计参数的真值,有效性则要求每个估计值 与待估参数真值之间的偏差尽可能地小。
ˆ , ˆ 为θ 的两个无偏估计量,若 ˆ 的方差小 设 1 2
于 ˆ
1
2
ˆ D ˆ D 1 1

[公式8—28]

(三)抽样平均误差的计算方法
1.平均数的抽样平均误差 (1)重复抽样条件下:
x 2
n

n
n


n
[公式8—8]
(2)不重复抽样条件下:
x 2 n N
nN 1
[公式8—9] [公式8—10]
当N很大时,
x 2
n 1 n N
标的实际值(
(
x , p) 直 接 作 为 总 体 未 知 参 数
X
,P)的估计值的一种推断方法。
ˆ 为未知参数θ 的估计量, 1.一致性。设
当n→∞时,要求
ˆ 1 lim P
n

按概率收敛于 θ ˆ

[公式8—26]
2.无偏性。若要求估计量
ˆ
的数学期
望等于未知参数的真值θ
它是从总体中按随机原则抽取一部分单位
进行观测,并根据这部分单位的资料推断
总体数量特征的一种方法。
抽样调查具有下列三个主要特点: (1)按随机原则抽取调查单位。 (2)由部分推断全体。 (3)抽样误差可以事先计算并加以控
制。
(二)抽样调查的作用
(1)用于不可能进行全面调查的无限总体。 (2)用于不可能进行全面调查而又需要了解全 面情况的现象。 (3)用于不必要进行全面调查的现象。 (4)用于对全面调查的资料进行评价与修正。 (5)用于工业生产过程的质量控制。
[例8—2] 某仪表厂生产某种型号的精密仪表,按正常 生产经验,产品合格率为85%。今按简单随机抽样方式从800 只仪表中抽取10%进行检验,求合格品比率的抽样平均误差。
P 85%,
2 P1 P 85% (1 85%) 12.75%,
n 800 10% 80
然后按固定顺序和相等距离或间隔抽取 样本单位的抽样组织方式。
抽样距离计算公式为:
k
N n
[公式8—3]
图8—1 等距抽样示意图
(四)整群抽样
整群抽样也称集团抽样、区域抽样
或分群随机抽样,它是将总体各单位按
时间或空间形式划分成许多群,然后按
纯随机抽样或机械抽样方式从中抽取部
分群,对中选群的所有单位进行全面调 查的抽样组织方式。
2.成数的抽样平均误差 (1)重复抽样条件下:
p
P 1 P n
[公式8—11]
(2)不重复抽样条件下:
p
P 1 P n N N 1 n
[公式8—12] [公式8—13]
当N很大时,
p
P 1 P n 1 n N
在重复条件下,采用[公式8—11]:
p
P 1 P n 12.75% 3.99% 80
8—13]:
p
P 1 P n 1 n N 12.75% 80 1 3.79% 80 800
[例8—3]某大学有4500名学生,采用不重复简单 随机抽样方式从中抽取10%的学生,调查其每月生 活费用支出情况。抽样结果显示,学生平均每人每 月生活费支出350元,标准差80元,生活费用支出 在500元以上的学生占全部学生的20%。试求抽样平
8.67 3
3 1 1.69(克) 300
p
2p
r
r 1 R
14 3
3 1 300 2.51%
第三节 总体指标的推断
一、点估计
点估计也称定值估计,它是以抽样得到的
样本指标作为总体指标的估计量,并以样本指
相关文档
最新文档